正则化面经题目

正则化稀疏解决方案中,确保向量党的每个分量都非常有效,每个组件都必须捕获一些有用的功能或数据模式。(只要精英,其余的die)像dropout,去除一些权重可以使得剩下的权重学习到更多的只是。

L1和L2是正则化项,又叫做罚项,是为了限制模型的参数,防止模型过拟合而加在损失函数后面的一项。

L1和L2正则化的作用
L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择。
L2正则化可以防止模型过拟合。(一定程度上,L1也可以防止过拟合)。

L1:在这里插入图片描述
两个向量或矩阵的 L1-norm 在这里插入图片描述
leisi
在这里插入图片描述

L2
在这里插入图片描述
leisi
在这里插入图片描述

L1正则&L2正则的区别是什么?

L1正则化是指在损失函数中加入权值向量w的一范数,即各个元素的绝对值之和;L2正则化指在损失函数中加入权值向量w的平方和。

L1的功能是使权重稀疏,而L2的功能是使权重平滑。

稀疏解释:
https://blog.csdn.net/fantacy10000/article/details/90647686

L1正则为什么可以得到稀疏解?

  1. 以下图看的直径,x/y坐标分别是参数w1/w2。(L1在高维空间中诗歌八面体0)
    下图所示为二维平面,只有w1和w2两个权重,右上角是经验损失的等值线。第一个交点就是最优解。
    L2正则化相当于为参数定义了一个圆形的解空间(w12+w22),而L1正则化相当于为参数定义了一个菱形的解空间。L1“棱角分明”的解空间显然更容易与目标函数等高线在脚点碰撞。从而产生稀疏解。

在这里插入图片描述

2.函数叠加的角度
考虑一维的情况,横轴是参数的值,纵轴是损失函数,加入正则项之后,损失函数曲线图变化如下:

以下通过函数

在这里插入图片描述

3.贝叶斯先验
高斯分布在这里插入图片描述
拉普拉斯分布在这里插入图片描述

当均值为0时,高斯分布在极值点处是平滑的,也就是高斯先验分布认为w在极值点附近取不同值的可能性是接近的。但对拉普拉斯分布来说,其极值点处是一个尖峰,所以拉普拉斯先验分布中参数w取值为0的可能性要更高。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值