![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
attention
文章平均质量分 93
DeepWWJ
这个作者很懒,什么都没留下…
展开
-
图解Transformer系列
学习学习Transformer原创 2022-06-16 13:06:30 · 709 阅读 · 0 评论 -
Attention is all your need
网络输入为 “input_” ,是对一个batch的句子进行单词的ID映射后的整型二维数据,shape是(10,100),表示一个batch是10句话,每句话长100个字(超出截取,不足补齐)。Encoder然后Tensor进入“encoder”中进行编码,“encoder”如下所示:“embedding_lookup”通过使用(32000,512)的矩阵将输入数据(10,100)映射为...原创 2019-08-09 20:36:56 · 252 阅读 · 0 评论 -
attention is all your need 之 scaled_dot_product_attention
“scaled_dot_product_attention”是“multihead_attention”用来计算注意力的,原文中“multihead_attention”中将初始的Q,K,V,分为8个Q_,8个K_和8个V_来传入“scaled_dot_product_attention”中进行计算。在“scaled_dot_product_attention”主要就是进行attention的...原创 2019-08-09 20:37:32 · 7392 阅读 · 0 评论