结构复现
使用Tensorflow1.x复现常见结构。
小汣结
博客存放代码注解;
github存放代码;
blibli存放视频;
展开
-
Tensorflow 实现常见mask
一、self-attention中的mask1.1 attention的mask.1.1.1 举例q_mask = [1, 1, 1, 1, 0, 0] # seq_len. 其中1表示有效, 0表示无效. # self-attention的score为 [seq_len, seq_len]q_mask = tf.expand_dims(q_mask, axis=-1) # [seq_len, 1]k_mask = tf.reshape(q_mask, [1, -1]) # [1, s原创 2021-04-15 16:35:41 · 1480 阅读 · 0 评论 -
Tensorflow Attention——自实现
一、最简单的attention1.1 结论公式如下:S = softmax(QKT)C = SV1.2 代码实现下面是Seq2Seq Attention的简易版。def attention_layer(query, key,value): query = tf.expand_dims(query, axis=1) # [bs, 1, hs] score = tf.nn.softmax(tf.matmul(query, key, transpose_b=True), axis=-1原创 2021-04-02 15:35:03 · 1051 阅读 · 0 评论