L2、L1正则化+增加噪声（网络/输出）+半监督/多任务+生成模型/判别模型

最新推荐文章于 2024-07-12 08:15:00 发布

Carr_001

最新推荐文章于 2024-07-12 08:15:00 发布

阅读量855

点赞数

分类专栏：学习日记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35554139/article/details/94359969

版权

学习日记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1.L2、L1正则化

L2:
放公式：
一步的情况：

在这里插入图片描述

**从整体看，**分析最小值W 附近的情况，假设J在W取得最小值，我们可以用二次函数来近似表达J在W*邻域：

在这里插入图片描述

Q:是hessian而不是jacobi?

A:因为这里假设的是二次函数，也就是存在二阶导数。
如果假设w周围是一次的话，那么就是J(w-w)，J是雅可比矩阵
由于是在最小值W*附近，所以H对称半正定。

加上weight decay（L2正则项）并对其求导：
在W*附近有

在这里插入图片描述

得

.

在这里插入图片描述

因为H对称，进行分解
.

在这里插入图片描述

进行一波分析：
Q:加入weight decay之后，对最后的W是什么样的影响？
A:对于小的特征值对应的特征向量，也就是对应值对J贡献较小的feature set{wi | wi属于W}，weight decay削弱了其对J的影响，提高了泛化能力。
具体分析见原文：
在这里插入图片描述

在这里插入图片描述

图形化理解：

在这里插入图片描述

如图所示，w*–>w~的位置对比，可以看出，w 的水平方向减少的比较多，垂直方向减少的比较少；对应J的等值线，竖直方向对应大的特征值的特征向量，水平方向对应小的特征值的特征向量。
总结：weight decay的效果是削弱对J的值改变不大的方向，保留对J的比较重要的方向(这个方向上的值的改变对J的值改变较大)
L1
一步的情况：

从整体看：这里不能假设成二次函数，怎么办呢？可以添加对角Hessian矩阵，来近似在最优值W附近为二次函数
在这里插入图片描述

在这里插入图片描述

不过要保证输入的特征是统计不相关的。
这样
在这里插入图片描述

在这里插入图片描述

经过计算可得：

在这里插入图片描述

可以看出，当选择足够大的参数α之后，就可以让参数足够的稀疏

2.增加噪声

增加网络噪声（如dropout）
增加输出噪声（如让label不是0-1，而是a,a∈[0,1]）

3.半监督/多任务

半监督是：有label和没有label的数据一起学习，生成模型p(x,y)与判别模型p(y|x)共享参数
多任务：如图
在这里插入图片描述

4.生成模型/判别模型

生成模型：学习P(x,y),然后求P(y|x)
判别模型:直接学习P(y|x)

5.Moore-Penrose伪逆

在这里插入图片描述
伪逆的求法还有，取SVD，QR

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。