过拟合和欠拟合的概念应该算是最经常出现的一对概念了
上面的2幅图就是欠拟合,模型过于简单,左下的就是一个合理的训练出来的模型,右下就是一个过拟合的例子
划分训练集合测试集的方法
留出法,直接将所有样本分为训练集和测试集,这时需要这两者尽可能保持数据的一致性,即他们的分布要尽可能一样,
k折交叉,将数据集划分为k份,做k次训练,每次取其中一个子集做测试集,其余做训练集,k次训练后求均值即为测试结果
自助法,每次从数据集中随机有放回的取一个样本,m次后即可形成大小为m的测试集
性能度量
对分类问题的度量方式为错误率或者精度,延伸出去就是分类问题的损失函数(交叉熵损失),对回归问题的度量方式为均方误差,他也是回归问题常见的损失函数。
几个重要的指标
查准率与查全率,前者指的是分类为正类的样本中到底有多少是真正的正类,后者指的是标签为正类的样本到底有多少划分对了,书里给的例子有利于理解这2个指标:假如我把所有瓜都归为好瓜,那么真的好瓜的确都标记为好瓜了,那么查全率为1,但归为好瓜的瓜中也有实际为假瓜的瓜,查准率低了;如果我把有把握高的瓜归为好瓜,查准率就高了,但好瓜有部分被归为坏瓜了,查全率就低了
P-R曲线基于这2个概念,首先他将预测结果排序,最有可能是正类的样本排前面,然后按这个顺序对每个样本作为正例进行预测,以查准率为y轴,查全率为x轴就做出了曲线
接下来的什么F1,宏观F1啥的概念书里有
然后就是ROC和AUC,课本也足够了
偏差和方差这里推导出了泛化误差是由方差,偏差和噪声三者之和构成的
偏差指的是算法的期望和真实结果的偏量程度,打个比方,我们在射箭,真实结果就像中心的10环,如果大多数都设在了4环5环,那么就认为偏差很大,如果大多数设在了8环9环,就认为偏差很小,
方差指的是射出去的箭,他如果箭都集中在某点上,就认为他的方差小,否则如果箭射的很分散,就认为他方差大
如果随着训练的进行,这2个都降到0了,而噪声是并不能随着训练而变小的,所以噪声代表着泛化误差的下界
偏差和方差存在一定的冲突,在学习的一开始,因为还处于欠拟合阶段,数据集再怎么,改变模型对这种改变的反应并不大,偏差占主导地位;到了后去,模型足够拟合了,偏差下去了,但数据集稍微一扰动,预测值也会随之扰动,方差就上去了
到了极端的情况,数据集变化一点点,预测的值就变的很大(类似龙格现象),这时就是过拟合了