模型:由参数向量决定的函数族(条件概率分布函数/决策函数),需要求模型参数向量
策略:选择最优模型的依据,如经验风险最小还是结构风险最小来求的最佳参数
算法:模型策略最优化,怎么去求解参数使得参数向量和真实的参数值误差小,并且复杂度低,既包括时间复杂度也包括空间复杂度,主要计算速度和存储空间的考虑
模型的假设空间:F={f|Y=f(X)}或F={P|P(Y|X)}
参数空间:参数向量的所有取值
策略
损失函数:模型一次预测的好坏度量
1.0-1损失函数
Y=f(X): L(Y,f(X))=1;Y!=f(X):L(Y,f(X))=0
2.平方损失函数
L(Y,f(X))=(Y-f(X))2
3.绝对损失函数
L(Y,f(X))=|Y-f(X)|
4.对数损失函数
L(Y,P(Y|X))=-logP(Y|X)
风险函数/期望损失:平均意义(期望)下模型预测的好坏,也可以看着损失函数的期望,由于(X,Y)符合某个联合分布P(X,Y)(未知的但是存在的),风险函数是存在的,但是不可知的。
经验风险函数:平均损失(所有损失的平均数),样本越多,越逼近期望损失(风险函数),自然就有了用平均损失逼近期望损失的方法,注意只是在逼近。
经验风险最小化(ERM):在经验风险逼近期望损失的情况下,求取使经验风险最小的参数向量。
结构风险函数:由于样本数量有限很少时,经验风险不能很好逼近期望损失,并且会出现过拟合现象,所以有了结构风险损失,在经验风险的基础上加入了模型复杂度。
模型复杂度:J(f)是指定义在假设空间上的泛函,通常称为正则化项或惩罚项,模型f越复杂,J(f)越大,反之,J(f)越小。
结构风险最小化(SRM):结构风险小的其经验风险和模型复杂度同时要小,结构风险最小等价于正则化,其中有一个惩罚系数,用于衡量经验风险和模型复杂度。
算法:具体如何效率,有效的学习模型,即如何快速的求得模型的最优解(近似解)。