【深度学习】一听就懂的～高速神经网络（Highway Network）

柠檬ya

已于 2022-08-26 22:53:13 修改

阅读量1.9k

点赞数 4

分类专栏：目标检测深度学习文章标签：深度学习神经网络 tensorflow 人工智能机器学习

于 2022-08-26 20:15:08 首次发布

本文链接：https://blog.csdn.net/qq_43591839/article/details/126549502

版权

深度学习同时被 2 个专栏收录

10 篇文章

订阅专栏

目标检测

6 篇文章

订阅专栏

高速神经网络介绍

高速神经网络与普通神经网络相比，引入了门机制，对于训练深层网络有显著的性能提升

门机制

传统的前馈神经网络只有一个非线性激活函数我们把它记做y = H(x,W_H)其中H表示非线性激活函数，x表示输入，W_H表示权重，y表示输出。而高速神经网络中引入的门机制，其实就是增加了两个非线性函数，论文中把他们分别叫做T(Transform Gate)，C(Carry Gate)，从而把输出变为y = H(x,W_H)*T(x, W_T) + x*C(x,W_C)，为了方便论文中设置C = 1 - T，因此最后的输出就变为y = H(x,W_H) * T(x, W_T) + x * (1 - T(x, W_T))，这里W_H表示非线性函数H的权重。
除此之外，我们还可以得到如下等式：
$y=\left\{ \begin{aligned} x \quad, if\quad T(x,W_T) = 0 \\ H(x, W_H)\quad, if \quad T(x, W_T) =1 \\ \end{aligned} \right.$
所以不难发现，实际上高速神经网络就是对一部分的输入保留不变，一部分的输入正常按照一般的前馈神经网络一样处理

Transform Gate（T）

对于transform gate，论文中将其定义为 $T(x)=\sigma(W_T^Tx + b_T)$ ，其中 $b_T$ 一般初始化为-1或-3。

Carry Gate（C）

对于carry gate，与一般的非线性函数一致，并没有什么特殊之处

Tensorflow实现HighWay Network

import tensorflow as tf

class HighwayLayer(tf.keras.layers.Layer):
    def __init__(self, units, t_bias):
        super(HighwayLayer, self).__init__()
        self.units = units # 定义输出单元个数
        self.t_bias = t_bias
        self.activationT = tf.nn.relu
        self.activationH = tf.nn.sigmoid

    def build(self, input_shape):
        print(input_shape[-1])
        self.W_H = self.add_weight(name="w_H", 
            shape=(input_shape[-1], self.units), initializer="random_normal", trainable = True
        ) # 添加激活函数H的权重
        self.W_T = self.add_weight(name="w_T",
            shape=(input_shape[-1], self.units), initializer="random_normal", trainable = True
        ) # 添加激活函数T的权重
        self.b_H = self.add_weight(name="b", shape=(self.units,), initializer="random_normal", trainable=True)
        self.b_T = tf.Variable(tf.constant(self.t_bias, shape=self.units), name='bias', trainable=True, dtype=tf.float32)


    def call(self, inputs):
        h = self.activationH(tf.matmul(inputs, self.W_H) + self.b_H)
        t = self.activationT(tf.matmul(inputs, self.W_T) + self.b_T)
        y = tf.add(tf.multiply(h, t) , tf.multiply(inputs, (1 - t)))
        return y

class HighwayNetwork(tf.keras.Model):
    def __init__(self, t_bias = -3.0, num_classes=10, num_of_layers=3): #这里对于激活函数t来说，论文给出的误差值为-1或-3
        super(HighwayNetwork, self).__init__()
        self.projection = tf.keras.layers.Dense(128)
        self.mlplayers = [HighwayLayer(128, t_bias=t_bias) for _ in range(num_of_layers)]
        self.classifier = tf.keras.layers.Dense(num_classes, activation='softmax')

    def call(self, x):
        X = self.projection(x)
        for layer in self.mlplayers:
            X = layer(X)
        y = self.classifier(X)
        return y