奥卡姆剃刀:多个假设与观察一致,选择最简单的那个。
线性模型:试图学得一个通过属性的线性组合来进行预测的函数,即,一般用向量形式写成。包括线性回归、逻辑回归、线性判别分析,多分类任务。
均方误差是回归任务最常用的性能度量:
基于均方误差最小化来进行模型求解的方法称为“最小二乘法”
二维平面上点a(x1,y1)与b(x2,y2)间的欧氏距离:
曼哈顿距离:
切比雪夫距离:
余弦距离:
在构建决策树时,可以简单地忽略缺失数据,即在计算增益时,仅考虑具有属性值的增益。
变异系数(CV):标准差与平均数的比值称为变异系数。变异系数评判标准同标准差
方差:,其中,x表示样本的平均数,n表示样本的数量,xi表示个体
标准差:方差的平方根。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。