期望风险或期望损失:是真实的,需要x,y的联合概率分布相乘
经验风险或经验损失:机器学习问题不可能已知x,y的联合概率分布,如果已知的话,那么x得出y就很容易了。那么根据大数定理可以使用1/n*损失函数来代替期望风险,得出经验风险。
结构风险最小化:是带正则项的经验风险最小化。
经验风险最小化容易带来模型复杂度过高,过拟合问题
正则化:
是结构风险最小化策略的实现。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大
范数:
0范数表示的是向量中非0元素的个数
1范数表示的是向量中元素的绝对值的和
2范数表示的是向量中元素的模的和
模型的稀疏化得优点:是可以实现自动特征选择和优秀的特征可解释性。
想要模型稀疏,最好的方法是使用正则化0范数。但是0范数是不好求w的最优化解得。并且l1是l0的最优凸近似。如果w在0点处不可微(l1就不可微),且可以分解为一个求和的形式,那么这个规则化算子就可以实现稀疏.
l2范数会使模型的参数很小,但是不能为0。l2相比L1具有更平滑的特性。当遇到两个对预测有帮助的特征时,L1倾向于选择一个更大的特征。而L2更倾向把两者结合起来。
交叉验证:
1、简单验证,70%训练集,30%测试集。使用此方法不断的选择模型和参数,比较测试集的准确率。
2、kfold,将数据集切分成k份,随机选择k-1做训练集,1做测试集。最后选出S次评测中平均测试误差最小的模型。