Transformer
文章平均质量分 58
Yunpeng1119
这个作者很懒,什么都没留下…
展开
-
Transformer模型中各个结构的理解
即将解码器的输入与编码器中编码好的每个单词的representation计算Attention score,然后计算Attention score与V的矩阵乘法,从而得到编码器中编码单词在解码器中待翻译单词中的表达。(而不像编码器中可以以并行的形式对句子中的所有单词进行Attention计算),即同Seq2Seq模型中解码器部分一样需要一个单词一个单词的进行输入,即我们只有在某一时刻预测出了某一单词后,才能继续预测后面的词。不妨假设我们的模型从训练集中学习一万个不同的英语单词(我们模型的“输出词表”)。原创 2022-09-17 20:08:43 · 571 阅读 · 0 评论 -
Transformer中,MHSA(multi-head self-attention)中为什么要分多个Head?
Transformer中,MHSA(multi-head self-attention)中为什么要分多个Head?原创 2022-09-17 19:57:50 · 1900 阅读 · 0 评论 -
Focal Self-attention for Local-Global Interactions inVision Transformers
本文提出了 focal self-attention,这是一种结合了细粒度局部交互和粗粒度全局交互的新机制。在这个新的机制中,每个 token 以细粒度关注其最近的周围 token,以粗粒度关注其远的周围 token,从而可以有效地捕获短期和长期的可视依赖关系。基于焦点自注意,提出了 focal Transformer,在一系列公共图像分类和目标检测基准上实现了优于先进的 (SoTA) ViT 的性能。原创 2022-09-17 14:40:32 · 678 阅读 · 0 评论 -
Shunted Self Attention via Multi Scale Token Aggregatio | CVPR 2022
Propose a novel and generic strategy, termed shunted self-attention (SSA), that allows ViTs to model the attentions athybrid scales per attention layer .原创 2022-09-16 15:34:10 · 79 阅读 · 0 评论