1、欠拟合:模型过于简单
过拟合:模型过于复杂,数据量太少
2、如何防止过拟合?
使用正则化项(L1正则化(||W||=|w1|+...+|wn|,),L2正则化())
模型复杂度与参数向量有关。使用正则化后可以使得某些参数趋向于0或者等于0,达到减少参数的目的
经验风险最小化——》结构风险最小化(加上正则化项)
正则化<——>带约束条件,即减少解空间,减少模型复杂度
3、L1正则具有稀疏性。
为什么使得很多参数的值变成0.
从解空间的形状:
L1正则有棱有角,更容易在顶点处取得最优解(概率会更大),此时会有一个参数为0,所以会构成解空间的稀疏性。
而L2正则取得最优解可能在接近0的位置,概率相对来说没有那么大。
贝叶斯最大后验概率的角度:
L1正则相当于假设加入一个先验概率,假设服从均值为0参数为的拉普拉斯分布。
L2正则,假设服从均值为0参数为的正态分布。
拉普拉斯分布比正态分布在图像上,在0处更为集中,更可能使得一些参数值取到0值,所以L1正则才会有一些稀疏性,所以可以做一些特征选择。
极大似然估计:见博客:https://blog.csdn.net/zengxiantao1994/article/details/72787849
贝叶斯估计:看到样本的情况下调整theta,求后验概率。。。。。。先验概率是没看到样本的情况下。求后验概率最大则需要求MLE(极大似然估计最大)
拉普拉斯分布和正态分布的曲线:
红色为拉普拉斯分布,其取0的概率非常大,则更可能具有稀疏性。而正态分布比较平缓,取得峰值的概率较小
起到特征选择的作用。