在学习Machine Learning过程中,有很多重要的名词需要去理解,这里就统一做个归纳总结。
错误率
分类错误的样本数占样本总数的比例称为错误率(error rate)
误差
学习器的实际预测输出与样本的真实输出之间的差异称为 误差(error) 分类器在训练集上的误差称为训练误差(training error)或经验误差(empirical error),在新样本上的误差称为泛化误差(generalization error)
过拟合
过拟合是指为了得到一致假设而使假设变得过度严格。意思就是学习器过于强大,学习了训练集大量特征,在训练集上取得很好的精度,但是在测试集精度就会大大下降。
欠拟合
和过拟合相反,通常由学习能力低下造成的。
最小二乘法
最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。