机器学习中关于正则项的一些摘抄

最新推荐文章于 2024-02-22 17:02:09 发布

daisyliudi

最新推荐文章于 2024-02-22 17:02:09 发布

阅读量936

点赞数

分类专栏：机器学习文章标签：机器学习正则优化

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

L0范数——稀疏表示，非零参数的个数。但是L0范数是NP hard问题，搜索很费劲。L1范数是L0范数的最优化近似，L1范数是L0范数的最紧的凸松驰（比如函数存在多个局部极小值，我们可以松弛成凸函数，只有一个最小值），反正就是L0不能优化，L1可以优化，L1可以代替L0.L1是绝对值之和，把W中有些项优化为0.而L2是W每一项的平方和开方，结果是使得每一项的参数都比较小。可以防止过拟合

为什么L2范数可以防止过拟合？
L2范数是指向量各元素的平方和然后求平方根。我们让L2范数的规则项||W||2最小，可以使得W的每个元素都很小，都接近于0，但与L1范数不同，它不会让它等于0，而是接近于0。而越小的参数说明模型越简单，越简单的模型则越不容易产生过拟合现象。
为什么越小的参数说明模型越简单？
限制了参数很小，实际上就限制了多项式某些分量的影响很小（看上面线性回归的模型的那个拟合的图），这样就相当于减少参数个数。
——或者也可以说W每一项都小，某点的导数就小，波动的范围就小，而过拟合就是和许多点拟合。见下面一个问题
为什么过拟合的时候系数会很大？
过拟合，就是拟合函数需要顾忌每一个点，最终形成的拟合函数波动很大。在某些很小的区间里，函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值（绝对值）非常大，由于自变量值可大可小，所以只有系数足够大，才能保证导数值很大。
总结：
L1会趋向于产生少量的特征，而其他的特征都是0，而L2会选择更多的特征，这些特征都会接近于0。Lasso在特征选择时候非常有用，而Ridge就只是一种规则化而已。
L1是假设参数服从双指数分布，利于保证权值向量的稀疏性；L2是假设参数服从高斯分布，利于防止过拟合