参考链接
论文链接:https://arxiv.org/pdf/1505.00387v2.pdf
目标
深层神经网络相比于浅层神经网络具有更好的效果,在很多方面都已经取得了很好的效果,特别是在图像处理方面已经取得了很大的突破,然而,伴随着深度的增加,深层神经网络存在的问题也就越大,像大家所熟知的梯度消失问题,这也就造成了训练深层神经网络困难的难题。2015年由Rupesh Kumar Srivastava等人受到LSTM门机制的启发提出的网络结构(Highway Networks)很好的解决了训练深层神经网络的难题,Highway Networks 允许信息高速无阻碍的通过深层神经网络的各层,这样有效的减缓了梯度的问题,使深层神经网络不在仅仅具有浅层神经网络的效果
模型架构Highway Networks Formula
- 对于普通的神经网络,每一层H(H表示的是网络的一层)表示从输入x映射到输出y,H通常是一个仿射变换和一个非线性变换(一个全连接层),H也采用其他的形式,像卷积神经网络和循环神经网络,公式如下: y = H ( x , W H ) y=H(x,W_H) y=H(x,WH)其中x表示输入,y表示输出, W H W_H WH表示这一层的参数权重
- 对于Highway Networks神经网络,增加了两门:一个是转化门 T(transform gate) 和一个是 保存/携带门C(carry gate),其中 T = s i g m o i d ( w x + b ) , c = 1 − T T=sigmoid(wx + b),c=1-T