机器学习第一章部分总结

m0_50889751

已于 2022-08-18 16:13:47 修改

阅读量286

点赞数

文章标签：机器学习人工智能算法

于 2022-08-16 14:44:53 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_50889751/article/details/126366067

版权

方法三要素：模型+策略+算法
策略：
损失函数：
0-1损失函数，平方损失函数，绝对损失函数（绝对值），对数损失函数，
平均损失函数又称为经验风险函数
结构风险：经验风险+正则化项（惩罚项）

过拟合：一味的追求提高对训练数据的预测能力，所选择的模型的复杂度往往比实际真模型要更高。这种现象称为过拟合。特点：对已知数据预测效果很好，但对未知数据表现的十分差。
针对过拟合的问题解决方式：正则化和交叉验证
正则化：即结构风险最小化，在经验风险上加一个正则化项，也就是惩罚项。
交叉验证：将数据集分为三个部分：训练集，验证集，测试集。思想：重复使用数据
训练集：主要用于模型的选择。
测试集：最终对学习方法的预估。
验证集：在学习不同的复杂程度中，选择对验证集有最小预测误差的模型。
交叉验证的方法：
1.简单交叉验证：训练集和测试集（一般训练集70%，测试集30%）
2.S-折交叉验证：将数据分成S个互不相交的，大小相同的子集，利用S-1个子集的数据训练模型，利用余下的子集进行测试。选出最好的平均测试误差。
3.留一交叉验证：S-折交叉验证的特殊情形S=N, 数据缺乏时用该方法。
泛化能力：该方法学习到的模型对未知数据的预测能力。通过测试误差来评价学习方法的泛化能力。
泛化误差：它是样本容量函数，当样本容量增加时，泛化上界趋于0；若是假设空间的函数，假设空间越大，模型越难学。
生成模型：利用联合概率分布，可以简单看成预测模型（生成模型）：朴素贝叶斯，马尔科夫模型。
判别：利用的是条件概率分布或者决策函数。

二分类问题中常见的指标：
精确率，召回率，准确率。
TP-正类数预测正类， FN-正类数预测负类数；FP-负类预测为正类数，负类预测为负类数。
精确率 =

P = \frac{TP}{TP+FP}

召回率：

R = \frac{TP}{TP+FN}

例子：假设有100个数据集，50个正的数据集，50个负的数据集。正的数据集预测正确为30，负的数据集预测正确为40
这里正的数据集个数为40，负的数据集为60
则精确率为

\frac{30}{40} = 0.75

召回率：

\frac{30}{50}=0.6

准确率：

\frac{70}{100}=0.7

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习第一章部分总结

统计学习方法——第一章章部分总结
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。