本节内容:机器学习算法的评估 Evaluation of ML Algorithms
主要有五个方面
1 过拟合 Overfitting and generalization
2 偏置 Bias
3 鲁棒性 Robustness to data
4 透明性 Transparency
5 复杂度 Computational Complexity
(1)过拟合是由于我们根据已知的测试数据得到了一个太好的函数,但是对未知数据时,确实一个不是很好的函数
解决方法是:1 奥卡姆剃刀定律(Ockham’s razor)关于具体思想见http://blog.csdn.net/hellowos/article/details/12751399
2 实验估计和避免 这里采用的是3个集合,包括训练集,测试集,有效集
(2)学习算法的偏置可以分为绝对偏置和相对偏置两种,其中绝对偏置是指机器的学习结果被限制在某个特定的范围内;
相对偏置是指机器的部分学习结果相对其他结果有优先权。
统计偏置将经验数据划分为不同数据集,分别在每个集合上进行学习,得到相应的学习结果。然后计算这些学习结果的均值和方差。
结果均值与理想结果之间的差别(称为统计偏差)以及结果方差反映了算法的偏置程度。如果统计偏差大,说明学习算法的绝对偏置是不适当的,
即它不能将学习结果限定在一个合适的范围内。如果学习结果的方差较小,说明学习算法的相对偏置很强,它对搜索范围内的函数有所偏好,
这样能保证其学习效果。
(3)同算法的鲁棒性
(4)机器的学习是否对人是透明的,我们不希望机器能够超越人类的限制。
(5)同算法的复杂度