LSTM 长短期记忆网络
Ct-1和一个东西做点积操作,然后和另外一个东西进行加法操作,这些操作都是向量。
有两个输入,一个ht-1,一个xt,ht-1是LSTM保存的另外一个状态,都输入sigmoid函数,得到一个向量ft,他是一个门限向量,之后ft和ct-1做点积操作,(ft的含义就是遗忘门,看Ct-1中哪些信息需要保留)。
同样H_t-1和X_t经过sigmoid操作得到门限向量i_t,他们有经过tanh函数得到Ct,代表从输入数组中可以得到多少信息,得到的信息和i_t作点积操作(得到的信息不是每个信息都是有用的,i_t控制着输入信息多少可以保存下来)
同样H_t-1 和 X_t经过sigmoid函数得到门限向量O_t,经过遗忘门和传入门更新后的C_t-1经过tanh和O_t作点积操作,(O_t控制C_t-1哪些信息被保留)。
建立模型
embedding_dim = 16
batch_size = 512
single_rnn_model = keras.models.Sequential([
# 1. define matrix: [vocab_size, embedding_dim]
# 2. [1,2,3,4..], max_length * embedding_dim
# 3. batch_size * max_length * embedding_dim
keras.layers.Embedding(vocab_size, embedding_dim,
input_length = max_length),
keras.layers.LSTM(units = 64, return_sequences = False),
keras.layers.Dense(64, activation = 'relu'),
keras.layers.Dense(1, activation='sigmoid'),
])
single_rnn_model.summary()
single_rnn_model.compile(optimizer = 'adam',
loss = 'binary_crossentropy',