dnn解读_从信息论的角度分析DNN的工作原理

最新推荐文章于 2024-05-13 19:58:13 发布

weixin_39890517

最新推荐文章于 2024-05-13 19:58:13 发布

阅读量507

点赞数

文章标签： dnn解读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39890517/article/details/111729650

版权

在前面的文章里，使用神经网络的任意函数拟合性结合了一点黎曼几何的坐标系变化的知识，解释了神经网络是怎样根据输入x，计算出每个分类下的能量Ei(x)的，再之后使用能量模型推算出了概率，从而展示了理论上可以使用DNN完成一个经典的分类问题。

然而这种解释只是最基本的可行性解释，并没有解答下列几个在训练时比较关键的问题：

DNN的层数以及每层的神经元个数究竟影响了哪些能够观测到的训练属性(除了函数的拟合性之外)？这些影响是怎么产生的？

为什么训练收敛速度会变慢？

为什么收敛后继续训练可能导致overfitting

理论上DNN的权重参数数量非常大，导致所需的样本数量也会非常大才能避免过拟合，但是实际上在较小的样本集上，DNN也能训练收敛，并且结合early stop方法也可以达到不错的泛化效果，这是为什么？

Dropout能够提升泛化性的原因

很多训练过程中出现的现象，以及网络结构会如何影响训练过程，这些问题都需要使用信息瓶颈理论来进行解读。

接下来的几篇文章，会着重探讨DNN是怎样高效地达到它的既定目标的，而不仅仅是证明DNN可以达到这些目标。

通过解读训练过程中每一层特征层包含的信息量变化，或许可以帮助解释DNN的黑盒。

首先需要介绍几个重要的概念：

交互信息(Mutual Information)：

$I(X,Y)=D_{KL}\left [ p(x,y)||p(x)p(y) \right ]$

其中KL距离的定义是：假如使用分布q(x)来代替分布p(x)用来描述随机变量X (注：x可以看做X离散化后采样得到的结果)

最低0.47元/天解锁文章

weixin_39890517

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
dnn解读_从信息论的角度分析DNN的工作原理

在前面的文章里，使用神经网络的任意函数拟合性结合了一点黎曼几何的坐标系变化的知识，解释了神经网络是怎样根据输入x，计算出每个分类下的能量Ei(x)的，再之后使用能量模型推算出了概率，从而展示了理论上可以使用DNN完成一个经典的分类问题。然而这种解释只是最基本的可行性解释，并没有解答下列几个在训练时比较关键的问题：DNN的层数以及每层的神经元个数究竟影响了哪些能够观测到的训练属性(除了函数的拟合性之...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。