【傻瓜攻略】深入学习入门之正则化（七）

最新推荐文章于 2024-04-26 15:14:42 发布

lyy_sha

最新推荐文章于 2024-04-26 15:14:42 发布

阅读量284

点赞数

分类专栏：人工智能文章标签：傻瓜攻略

人工智能专栏收录该内容

15 篇文章 7 订阅

订阅专栏

上一章写了很多损失函数，其实大多数是我直接复制粘贴整理过来的……是各个神经网络所用到的损失函数的整理。但是我还是没有一些更深一点的理解，可能在后面整理到各种神经网络的时候会用到。

这章博客的主要内容一是分享一个有趣的关于logistic分类的推到，二则是开始聊一聊损失函数中的正则项。这章也是转载的较多，我会标注出原网址的。如果有疏漏就劳烦看官提醒了。虽然感觉确实没人看……

那么现在开始我看到的第一个分享。

1.第一个分享

参考网址：https://blog.csdn.net/v_july_v/article/details/7624837

这个博客的1.1的关于logistic回归的推导很有意思，而且作者的措辞也很好玩，建议大家看看他的博客。

下面是我的个人总结：

其中，简化为概率。

将y的标签改为-1，+1，然后令，即将一维数据，该变为二维矩阵的乘法。

然后令=b,则，再对于式子进行简化，。

2.正则化项

正则化项的加入，顾名思义，是为了正则化神经网络，解决机器学习过程中过拟合的问题。（以下的话出自网址：https://www.cnblogs.com/weizc/p/5778678.html 用于解释正则化项的出现甚好。）规则化是结构风险最小化策略的实现，是在经验风险上加一个正则化项(regularizer)或惩罚项(penalty term)。

2.0.0 关于正则化如何缓解过拟合问题的原因：

正则化是对于模型参数添加先验，使得模型复杂度较小，对于噪声以及离群点的输入扰动相对较小。

2.0.1 关于正则化项如何正则化神经网络：

，这是一个监督学习希望得到目标权重值的式子，即最小化损失函数得到最优解。

其中Ω(w)就是正则化项，λ为正则化系数。当λ越大的时候，Ω(w)所占的权重越大，即所得到的函数越光滑，也就意味着我们所选择的样本越没有用。反之，样本的权重越大，即函数越容易过拟合。（鄙人根据各种书本以及网址总结得到的通俗化解释。参考书和网址过多，不一一列举了。）

一般来说，正则化项可以是L1范数，L2范数，L0范数，迹范数，Frobenius范数和核范数等。

向量的范数可以简单形象的理解为向量的长度，或者向量到零点的距离，或者相应的两个点之间的距离。

向量的范数定义：向量的范数是一个函数||x||,满足非负性||x|| >= 0，齐次性||cx|| = |c| ||x|| ，三角不等式||x+y|| <= ||x|| + ||y||。

2.0.2 关于正则化项如何稀疏：

下面开始介绍各种范数。

参考网址：https://blog.csdn.net/gshgsh1228/article/details/52199870

P-范数式子：

2.1 L0范数

即p=0代入上述式子中，得到L0-范式

L0范数来规则化参数矩阵W，即希望W的大部分元素都是0。

缺点：很难优化求解（NP难）。这句话，我在各个网站看到很多次了，就是不知道是什么意思，若是有大佬看到，希望能指点一二，跪谢。

关于L0/L1/L2范数的联系和区别，参考网址：https://www.cnblogs.com/little-YTMM/p/5879093.html

2.2 L1范数

矩阵形式：，即向量元素绝对值之和。也称“稀疏规则算子”。

L1是L0的最优凸近似，比L0更容易优化求解。

相当于加入了一个laplacean先验

2.3 L2范数

为x向量各个元素平方和的1/2次方，L2范数又称Euclidean范数或者Frobenius范数。又叫“岭回归”。相当于加入了一个gaussian 先验

，L1会趋向于产生少量的特征，而其他的特征都是0，而L2会选择更多的特征，而这些特征都会接近于0。

好处：1、解决过拟合问题。2、有助于处理Condition number 不好的情况下矩阵求逆很困难的问题。

关于Condition number：

用于衡量系数过敏感问题的数值。参考网址：https://blog.csdn.net/zouxy09/article/details/24971995

简单来说，就是系统对于误差太敏感，以至于解的误差更大，也就是说，系统对于样本的误差的容忍度太低，容易造成输入稍微改变，输出就发生很大变化的状况。。

Condition number就是用于衡量这种铭感度的数值，Condition number越小系统越好。大的Condition number会拖慢迭代的收敛速率，因为的收敛速度与Condition number有关。规则化项则是把目标函数变成λ-strongly convex。

实际上，L1和L2可以写成一下形式：

将代价函数转化为二维情况，上述式子的约束条件就是其正则化项。L1的约束条件是菱形，L2的约束条件变成圆形。等高线和约束条件首次相交的地方就是最优解。

可以看到，L1在和每个坐标轴相交的地方都有“角”出现，目标函数大部分都会在角的地方相交。注意到在角的位置就会出现稀疏性。而L2没有角，所以第一次相交的地方出现具有稀疏性的位置的概率就变得非常小。

总结：L2在特征选择时候非常有用。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【傻瓜攻略】深入学习入门之正则化（七）

上一章写了很多损失函数，其实大多数是我直接复制粘贴整理过来的……是各个神经网络所用到的损失函数的整理。但是我还是没有一些更深一点的理解，可能在后面整理到各种神经网络的时候会用到。这章博客的主要内容一是分享一个有趣的关于logistic分类的推到，二则是开始聊一聊损失函数中的正则项。这章也是转载的较多，我会标注出原网址的。如果有疏漏就劳烦看官提醒了。虽然感觉确实没人看……那么现在开始我看到的第一个分...
复制链接

扫一扫

专栏目录

lyy_sha CSDN认证博客专家 CSDN认证企业博客

码龄6年

13: 原创

30万+: 周排名

66万+: 总排名

4万+: 访问

: 等级

472: 积分

45: 粉丝

30: 获赞

9: 评论

154: 收藏

私信

关注

热门文章

分类专栏

人工智能 15篇
MFC 2篇

最新评论

写MFC遇到的各种大大小小的坑
会瞬移的猪: 第一个问题应该是少了控件，我注册了mscomm32.ocx之后就解决了
写MFC遇到的各种大大小小的坑
haoahaoaka: 应该是项目的运行环境有问题，从debug x64改为 debug x86 就好了
写MFC遇到的各种大大小小的坑
haoahaoaka: 大佬，第一个问题解决了吗？
OCR浅解析
weixin_47283843: 世界500强公司有个OCR的项目，想找承包商设施，联系人：傅先生电话18118110413
【傻瓜攻略】深度学习之从入门到放弃
lyy_sha: WIN7+CUDA9.1.85+Python3.6+CUDnn7.0.5+tensorflow-gpu 1.5 就是这个啊

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。