在学习了一段时间的《机器学习实战》后,发现该书针对的是实战,有很多公式推导和原理讲解都一笔带过,于是便购买了周志华的西瓜书进行学习,这篇笔记也多来自西瓜书,主要是熟悉一些概念词。
模型的评估与选择
奥卡姆剃刀定理:若有多个假设与观察一,则选择最简单的那个。
但由于机器学习领域对于最简单的定义不明确,还是很难选。
没有免费的午餐理论(No Free Lunch,NFL):争对某一领域的所有问题,算法的期望性相同。
这也是为了指出一点:
在有限的搜索空间中,当且仅当我们指定了具体的问题的时候我们才能说一个优化方法要优于另一种优化方法。
也就是说,在理论上,不存在一个算法在所有的问题上都能获得最优的结果。
经验误差和过拟合
错误率(error rate):分类错误的样本数占样本总数的比例。
精度(accuracy):精度=1-错误率。
训练误差或经验误差(empiriacl error):学习器在训练集上的误差。
泛化误差(generalization error):新样本上的误差。
过拟合(overfitting):学习器把训练样本学得太好,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质。
欠拟合(underfitting):对训练样本的一般性质没有学好。
评估方法
留出法(hold-out):将数据集部分作为训练集,部分作为测试集,需要尽量保证训练集和测试集类别分布一致。
交叉验证法(cross validation):将数据集划分为K个,每轮选择k-1个用于训练,1个用于测试,得到泛化误差,进行p轮。评估结果为这p轮的均值。
自助法(bootstrapping):每次从数据集中有放回的选择一个加入到训练集中,共取m个,数据集整体作为测试集。在数据集较小、难以有效划分训练测试集时有显著作用。但是会改变初始数据集的分布。在数据量足够时,还是前两种方法好。
调差与最终模型(parameter tuning):
超参数:由人工设定多个参数候选值产生模型。
性能度量
性能度量(performance measure):衡量模型泛化能力的评价标准。
查准率(precision):模型得到的正例中正确的比例
查全率(recall):被模型认为是正确的在正确中的比例
查准率和查全率是一对矛盾的度量,实际上需要同时利用这二者进行性能度量。
平衡点(Break-Even Point,BEP)比较:他是查准率=查全率时的取值,越大性能越好
F1度量: F 1 = 2 P