G. Alain & Y. Bengio
原文地址
https://arxiv.org/abs/1610.01644
众所周知,大多数时候神经网络模型的内部运算不可测,这篇论文提出了“linear classifier probe”来分析神经网络中间层在整个网络中的作用。由于很多神经网络用于线性分类(或者说各个神经层最终都会导入一个线性分类器中,使用一个线性函数来分析各层的作用是合理的。
论文主要研究三个问题:
- 当我们增加层数时,会发生什么?
- 如果神经网络有多个分支,信息会如何传递?
- 辅助损失(auxiliary losses)有用吗? 如果神经网络有多个分支,信息会如何传递? 辅助损失(auxiliary losses)有用吗?
论文从香农熵开始,提出第一个问题:给出一个含有数据(X,Y)的多层感知机,关于目标Y,中间层是否比X有更多的信息量?
答案是否。
假设上图,Y和A代表各随机变量,根据条件熵,可得:
可推论&#