这个问题的原因,很多教材上讲是为了引入非线性,也就是说只有引入激活函数层建立的网络才具有非线性特征,那疑问就来了,没有激活函数层就没有非线性了吗?如果答案是肯定的话,是否存在严谨的理论证明?
以为下面的网络为例,它的每一层都是全连接层,并且没有激活函数层,我们列出各层之间的数据关系公式:
第一层输出:
第二层输出:
...
最后一层:
逐层代入得到:
这个问题的原因,很多教材上讲是为了引入非线性,也就是说只有引入激活函数层建立的网络才具有非线性特征,那疑问就来了,没有激活函数层就没有非线性了吗?如果答案是肯定的话,是否存在严谨的理论证明?
以为下面的网络为例,它的每一层都是全连接层,并且没有激活函数层,我们列出各层之间的数据关系公式:
第一层输出:
第二层输出:
...
最后一层:
逐层代入得到: