深度学习中L2 norm的使用

最新推荐文章于 2025-04-02 17:00:29 发布

学习总结

最新推荐文章于 2025-04-02 17:00:29 发布

阅读量4.4k

点赞数 1

分类专栏：机器学习笔记文章标签： L2 norm 深度学习机器学习归一化

机器学习笔记专栏收录该内容

6 篇文章

订阅专栏

L2 norm其实是一个比较朴素的应用比较广泛的正则化算法，从过去的传统算法到现在的深度学习，从数据预处理到模型优化，都或多或少的会用到这个思想。其算法的过程也比较简单：

1.求出当前层数据的平方
2.求出当前层数据的平方和
3.将第一步得到的数据除以第二步得到的数据

这样一个简单的过程，会有什么作用呢？首先，经过L2 norm的数据都处于0到1之间。其次，经过L2 norm的数据之间的差异性会被放大。这两个特点能够在某些情况下发挥重要的作用，而在实际应用中，往往就是这样的小trick的累积最终形成了质变。

我所了解的L2 norm在深度学习中的应用，比较著名的有SSD目标检测器。作者在SSD中的conv4_3层后面加上了L2 norm，他的理由是该层的数据尺度与其他层不同，所以需要加上一个norm操作，具体的分析可看作者在github中的回复：

https://github.com/weiliu89/caffe/issues/241

这里我做一些自己的思考和猜想，为什么仅仅是conv4_3层中的数据分布与其他层不同呢？我想原因应该与我遇到的问题相似，在网络的前面层中存在一些操作，使得卷积对样本的差异性敏感度增加，扩大了输出值的分布范围，经过了多层卷积之后，这样的敏感性被逐渐累积放大，直到conv4_3引起了质变。当然，这个想法的合理性还有待验证。

摘自https://mp.weixin.qq.com/s/QR-KzLxOBazSbEFYoP334Q

博客等级

码龄10年

26
原创

13
点赞

44
收藏

13
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: HIERARCHICAL MULTISCALE RECURRENT NEURAL NETWORKS 论文简介

下一篇：: Faster R-CNN手绘流程

最新评论

神经网络模型地评估
pxyppl: 就是误差，训练集的误差叫做“training error”，新样本上的误差叫做“generalization error”，我们事先不知道新样本，所以是不知道“generalization error”的，所以我们用“training error”来表示。我们想要知道模型泛化能力的好坏，也就是perfomance（性能）。这种performance就用error或者accuracy来体现，因此训练集性能就是训练集上的误差或是精确度，在回归模型中，用的比较多的性能指标是均方误差“mean squared error；在分类模型中，性能指标主要是精确度
损失函数与准确率的关系
会写代码的孙悟空回复松下问童子: 比如预测一张图片是狗还是猫，对于accu来说只要预测结果大于0.5就行，而val_loss希望百分百预测正确。
在SVM中为什么成比例改变w和b，分离超平面并没有发生改变
xisi克利夫: 想象二维坐标系中，点到直线的距离公式。函数间隔其实是公式中的分子部分。比如(1,-1)到x-y=0的距离是|x-y|=2，但是(1,-1)到2x-2y=0的距离|2x-2y|=4；显然不同，但是x-y=0和2x-2y=0是表示的一条直线
损失函数与准确率的关系
松下问童子: 楼主，我也不明白，当val_loss变大时，accu却没有变小，这说明了什么问题？
神经网络模型地评估
wzy路灯: 楼主在第一段提到的“训练集性能”指什么？

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。