L2、L1正则化+增加噪声(网络/输出)+半监督/多任务+生成模型/判别模型

1.L2、L1正则化

L2:
放公式:
一步的情况:


在这里插入图片描述

**从整体看,**分析最小值W 附近的情况,假设J在W取得最小值,我们可以用二次函数来近似表达J在W*邻域:

在这里插入图片描述

Q:是hessian而不是jacobi?

A:因为这里假设的是二次函数,也就是存在二阶导数。
如果假设w周围是一次的话,那么就是J(w-w),J是雅可比矩阵
由于是在最小值W*附近,所以H对称半正定。

加上weight decay(L2正则项)并对其求导:
在W*附近有


在这里插入图片描述

.

在这里插入图片描述

因为H对称,进行分解
.

在这里插入图片描述

进行一波分析:
Q:加入weight decay之后,对最后的W是什么样的影响?
A:对于小的特征值对应的特征向量,也就是对应值对J贡献较小的feature set{wi | wi属于W},weight decay削弱了其对J的影响,提高了泛化能力。
具体分析见原文:
在这里插入图片描述图形化理解:
在这里插入图片描述如图所示,w*–>w~的位置对比,可以看出,w 的水平方向减少的比较多,垂直方向减少的比较少;对应J的等值线,竖直方向对应大的特征值的特征向量,水平方向对应小的特征值的特征向量。
总结:weight decay的效果是削弱对J的值改变不大的方向,保留对J的比较重要的方向(这个方向上的值的改变对J的值改变较大)
L1
一步的情况:
在这里插入图片描述
在这里插入图片描述
从整体看:这里不能假设成二次函数,怎么办呢?可以添加对角Hessian矩阵,来近似在最优值W
附近为二次函数
在这里插入图片描述
不过要保证输入的特征是统计不相关的。
这样
在这里插入图片描述
经过计算可得:
在这里插入图片描述
可以看出,当选择足够大的参数α之后,就可以让参数足够的稀疏

2.增加噪声

增加网络噪声(如dropout)
增加输出噪声(如让label不是0-1,而是a,a∈[0,1])

3.半监督/多任务

半监督是:有label和没有label的数据一起学习,生成模型p(x,y)与判别模型p(y|x)共享参数
多任务:如图
在这里插入图片描述

4.生成模型/判别模型

生成模型:学习P(x,y),然后求P(y|x)
判别模型:直接学习P(y|x)

5.Moore-Penrose伪逆

在这里插入图片描述
伪逆的求法还有,取SVD,QR

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值