1.过拟合
模型的学习能力过于强大,把一些不太一般的特征也学了。(eg:训练子的叶子都有边缘锯齿,学习出来叶子必须要有锯齿)
2.评估方法:留出法
把训练集一分为二,一部分作为训练集,一部分作为验证集,一般训练集占比0.7-0.8
分的时候要用分层采样(保持数据分布一致,原来是高斯分布,分别提取出来两个也基本保持高斯分布)
单次使用留出法不可靠,因为分出去的训练集和验证集内部还有顺序,这个顺序也很重要,所以可以打乱顺序多次使用留出法,最后用均值得出最后结果
3.交叉验证法
留出法是一分为二
交叉验证把数据集分成k份,依旧是用分层采样,保持分布一致
k份每次都用其中一份当验证集,其他k-1份当训练集,k次训练结果求均值
同样也要多次使用交叉验证,增加可靠性,也就是p次k折交叉验证
可以引申出留一法(数据集不是很大的时候能用),m个数据就分成m份
4.自助法
给定一个m大小的训练集,每次随机抽取一个,复制到新的训练集D,抽取m次
这样改变了原始数据集的分布
经过计算,自助法抽取出来的数据约占原数据集的0.7,D中的数据有重复的
再让原数据集去掉D中的,剩下的当做验证集
5.均方误差
用于度量回归问题
6.错误率和精度
错误率=错误的样本/所有样本
精度=正确的样本/所有样本
7.查准率,查全率
混淆矩阵
真实情况 | 预测结果 | |
正例 | 反例 | |
正例 | 真正例 | 假反例 |
反例 | 假正例 | 真反例 |
查准率=挑出来对的/挑出来的样例=真正例/真正例+假正例
查全率=挑出来的正例/所有正例=真正例/真正例+反正例
查准率与查全率是一对矛盾的度量。一般来说,查准率高时,查全率往往偏低;查全率高时,查准率往往偏低
8.P-R曲线
在很多情形下,学习器的预测结果是一个实值或概率预测,因此我们可以根据此预测结果对样例进行排序,排在前面的是学习器认为“最可能”是正例的样本,排在最后的则是学习器认为“最不可能”是正例的样本
按照上面的顺序逐个把样本作为正例进行预测,则每次可以计算出当前的查准率、查全率。以查准率为纵轴、查全率为横轴作图,就得到了查准率-查全率曲线,简称“P-R曲线”,显示该曲线的图称为“P-R图”
平衡点是在P-R曲线中“查准率=查全率”时的取值
P-R图直观地显示出学习器在样本总体上的查准率、查全率。在进行比较时:
若一个学习器的P-R曲线被另一个学习器的曲线完全“包住”,则可以断言后者的性能优于前者。
若两个学习器的P-R曲线有交叉,就难以一般性地断言两者哪个更优。一个比较合理的判据是比较P-R曲线下面积的大小,但是这个值不容易估算。于是就设计了平衡点
9.F1
F1是基于查准率与查全率的调和平均定义的
在一些应用中,对查准率和查全率的重视程度有所不同。例如,在商品推荐系统中,为了尽可能少打扰用户,更希望推荐内容确实是用户感兴趣的,此时查准率更重要;在逃犯信息检索系统中,更希望尽可能少漏掉逃犯,此时查全率更重要。
F1度量的一般形式Fβ,能让我们表达出对查准率/查全率的不同偏好
10.ROC与AUC
真正例率=真正例/所有正例
假正例率=假正例/所有反例
AUC:ROC曲线下的面积
AUC越大越好
用这个方法评判阈值选择的好不好
11.代价敏感错误率与代价曲线
比如医疗诊断中,若一个正常人误诊断为癌症病人,那么会给测试者造成了很大的心理压力以及花费很长时间去做进一步的检查;若一个癌症病人误诊断为正常人,那么病人很可能因此丧失生命,显然,癌症病人误诊断为正常人的损失代价要大的多
ROC曲线在均等代价(分类错误的损失代价相同)的前提下反映学习模型的泛化能力
代价曲线:显示期望总代价
12.比较检验(先略过)
13.偏差与方差
偏差:度量了学习算法的期望预测与真实结果的偏离程度
方差:数据扰动所造成的影响
噪声:本身学习的难度
训练程度越大,偏差越小,方差越大,泛化误差先降后升