kl距离（散度）&l1范数区别

最新推荐文章于 2023-12-18 16:44:37 发布

Sun7_She

最新推荐文章于 2023-12-18 16:44:37 发布

阅读量5.2k

点赞数 2

分类专栏：深度学习文章标签：神经网络稀疏编码

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Sun7_She/article/details/52300438

版权

深度学习专栏收录该内容

44 篇文章 0 订阅

订阅专栏

在这篇文章中：

http://ufldl.stanford.edu/wiki/index.php/稀疏编码

kl散度（divergence）公式：

根据kl散度列出的优化问题的公式，会用到 l1 范数，因此它们是存在某种关系的，但从化简公式的步骤来看，一定不是线性关系。

在深度学习中：

http://deeplearning.stanford.edu/wiki/index.php/Autoencoders_and_Sparsity

使用的kl距离（也可以翻译成kl散度，比上边的公式多了第二项并略有改动），公式如下：

画图如下：

pj 可以理解为需要求的参数，p为经验值。当pj = p ＝ 0.2时，kl距离为0.

如果换成 l1 距离，则如下图所示：

该图也可以同样理解——pj 可以理解为需要求的参数，p为经验值。当pj = p ＝ 0时，l1距离为0.

在学习过程中，它们都可以实现稀疏性。但是区别可能类似于 l2 和 l1 范数的区别，具体参考文章：

http://blog.csdn.net/zouxy09/article/details/24971995

L1会趋向于产生少量的特征，而其他的特征都是0，而L2会选择更多的特征，这些特征都会接近于0。Lasso（l1范数）在特征选择时候非常有用，而Ridge（l2范数）就只是一种规则化而已。

详细讲解 l0 l1 l2 范数，稀疏，规范化

http://blog.csdn.net/zouxy09/article/details/24971995

http://ufldl.stanford.edu/wiki/index.php/稀疏编码

http://www.cnblogs.com/tornadomeet/archive/2013/04/13/3018393.html

很棒的有关神经网络的中文教程，翻译自Stanford吴恩达

http://blog.sina.com.cn/s/blog_46d0a3930101h6nf.html

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。