西瓜书第二章个人总结

过拟合和欠拟合的概念应该算是最经常出现的一对概念了
在这里插入图片描述上面的2幅图就是欠拟合,模型过于简单,左下的就是一个合理的训练出来的模型,右下就是一个过拟合的例子

划分训练集合测试集的方法

留出法,直接将所有样本分为训练集和测试集,这时需要这两者尽可能保持数据的一致性,即他们的分布要尽可能一样,
k折交叉,将数据集划分为k份,做k次训练,每次取其中一个子集做测试集,其余做训练集,k次训练后求均值即为测试结果
自助法,每次从数据集中随机有放回的取一个样本,m次后即可形成大小为m的测试集

性能度量
对分类问题的度量方式为错误率或者精度,延伸出去就是分类问题的损失函数(交叉熵损失),对回归问题的度量方式为均方误差,他也是回归问题常见的损失函数。
几个重要的指标
查准率与查全率,前者指的是分类为正类的样本中到底有多少是真正的正类,后者指的是标签为正类的样本到底有多少划分对了,书里给的例子有利于理解这2个指标:假如我把所有瓜都归为好瓜,那么真的好瓜的确都标记为好瓜了,那么查全率为1,但归为好瓜的瓜中也有实际为假瓜的瓜,查准率低了;如果我把有把握高的瓜归为好瓜,查准率就高了,但好瓜有部分被归为坏瓜了,查全率就低了
P-R曲线基于这2个概念,首先他将预测结果排序,最有可能是正类的样本排前面,然后按这个顺序对每个样本作为正例进行预测,以查准率为y轴,查全率为x轴就做出了曲线

接下来的什么F1,宏观F1啥的概念书里有

然后就是ROC和AUC,课本也足够了

偏差和方差这里推导出了泛化误差是由方差,偏差和噪声三者之和构成的

偏差指的是算法的期望和真实结果的偏量程度,打个比方,我们在射箭,真实结果就像中心的10环,如果大多数都设在了4环5环,那么就认为偏差很大,如果大多数设在了8环9环,就认为偏差很小,
方差指的是射出去的箭,他如果箭都集中在某点上,就认为他的方差小,否则如果箭射的很分散,就认为他方差大
如果随着训练的进行,这2个都降到0了,而噪声是并不能随着训练而变小的,所以噪声代表着泛化误差的下界
偏差和方差存在一定的冲突,在学习的一开始,因为还处于欠拟合阶段,数据集再怎么,改变模型对这种改变的反应并不大,偏差占主导地位;到了后去,模型足够拟合了,偏差下去了,但数据集稍微一扰动,预测值也会随之扰动,方差就上去了
到了极端的情况,数据集变化一点点,预测的值就变的很大(类似龙格现象),这时就是过拟合了

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值