西瓜书第二章个人总结

最新推荐文章于 2024-08-06 20:17:03 发布

love081300

最新推荐文章于 2024-08-06 20:17:03 发布

阅读量293

点赞数

分类专栏：西瓜书个人笔记文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/love081300/article/details/122438496

版权

西瓜书个人笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

过拟合和欠拟合的概念应该算是最经常出现的一对概念了
在这里插入图片描述上面的2幅图就是欠拟合，模型过于简单，左下的就是一个合理的训练出来的模型，右下就是一个过拟合的例子

划分训练集合测试集的方法

留出法，直接将所有样本分为训练集和测试集，这时需要这两者尽可能保持数据的一致性，即他们的分布要尽可能一样，
k折交叉，将数据集划分为k份，做k次训练，每次取其中一个子集做测试集，其余做训练集，k次训练后求均值即为测试结果
自助法，每次从数据集中随机有放回的取一个样本，m次后即可形成大小为m的测试集

性能度量
对分类问题的度量方式为错误率或者精度，延伸出去就是分类问题的损失函数（交叉熵损失），对回归问题的度量方式为均方误差，他也是回归问题常见的损失函数。
几个重要的指标
查准率与查全率，前者指的是分类为正类的样本中到底有多少是真正的正类，后者指的是标签为正类的样本到底有多少划分对了，书里给的例子有利于理解这2个指标：假如我把所有瓜都归为好瓜，那么真的好瓜的确都标记为好瓜了，那么查全率为1，但归为好瓜的瓜中也有实际为假瓜的瓜，查准率低了；如果我把有把握高的瓜归为好瓜，查准率就高了，但好瓜有部分被归为坏瓜了，查全率就低了
P-R曲线基于这2个概念，首先他将预测结果排序，最有可能是正类的样本排前面，然后按这个顺序对每个样本作为正例进行预测，以查准率为y轴，查全率为x轴就做出了曲线

接下来的什么F1,宏观F1啥的概念书里有

然后就是ROC和AUC，课本也足够了

偏差和方差这里推导出了泛化误差是由方差，偏差和噪声三者之和构成的

偏差指的是算法的期望和真实结果的偏量程度，打个比方，我们在射箭，真实结果就像中心的10环，如果大多数都设在了4环5环，那么就认为偏差很大，如果大多数设在了8环9环，就认为偏差很小，
方差指的是射出去的箭，他如果箭都集中在某点上，就认为他的方差小，否则如果箭射的很分散，就认为他方差大
如果随着训练的进行，这2个都降到0了，而噪声是并不能随着训练而变小的，所以噪声代表着泛化误差的下界
偏差和方差存在一定的冲突，在学习的一开始，因为还处于欠拟合阶段，数据集再怎么，改变模型对这种改变的反应并不大，偏差占主导地位；到了后去，模型足够拟合了，偏差下去了，但数据集稍微一扰动，预测值也会随之扰动，方差就上去了
到了极端的情况，数据集变化一点点，预测的值就变的很大（类似龙格现象），这时就是过拟合了

love081300

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
西瓜书第二章个人总结

过拟合和欠拟合的概念应该算是最经常出现的一对概念了上面的2幅图就是欠拟合，模型过于简单，左下的就是一个合理的训练出来的模型，右下就是一个过拟合的例子划分训练集合测试集的方法留出法，直接将所有样本分为训练集和测试集，这时需要这两者尽可能保持数据的一致性，即他们的分布要尽可能一样，k折交叉，将数据集划分为k份，做k次训练，每次取其中一个子集做测试集，其余做训练集，k次训练后求均值即为测试结果自助法，每次从数据集中随机有放回的取一个样本，m次后即可形成大小为m的测试集性能度量对分类问题的度量方式为错
复制链接

扫一扫

专栏目录