Regularization

最新推荐文章于 2020-02-26 11:10:22 发布

Doooer

最新推荐文章于 2020-02-26 11:10:22 发布

阅读量583

点赞数

分类专栏：机器学习算法总结

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/YQMind/article/details/85090965

版权

本文介绍了正则化的概念，特别是L1和L2正则化在机器学习中的区别和作用。L1正则化对应拉普拉斯分布，倾向于产生稀疏解，适用于特征选择；L2正则化对应高斯分布，使解靠近0。在L1和L2的结合中，Elastic Net解决了特征高相关性问题，通过权重平衡稀疏性和接近0的解。

摘要由CSDN通过智能技术生成

概述

L1和L2正则项本质上是对参数进行先验分布假设，具体来说L1对应拉普拉斯先验，L2对应高斯先验。
在这里插入图片描述

ML与MAP的不同

maximum likelihood (ML) 极大似然估计:
在这里插入图片描述

MAP (maximum a posterior) 最大后验概率估计:
在这里插入图片描述

即 $p(\theta)$ 进行了先验假设。

拉普拉斯分布

L1正则化对应假设每个参数服从均值为0的拉普拉斯分布。
在这里插入图片描述

b越小，越陡。

在这里插入图片描述

L1和L2不同

L1更倾向于获得稀疏解，因此还可以用于特征选择
L2更倾向于解在0附近

理由：
从先验概率分布角度解释：
由上面的拉普拉斯分布图可以看出，拉普拉斯分布是尖尖的分布，而高斯分布较平缓。因此拉普拉斯分布比高斯分布更集中在0这个点上。
从梯度角度考虑
L1给予了更大的下降力度，从而更快收敛到稀疏点。

扩展

线性回归问题中，加上 $L_1$

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。