Transformer
文章平均质量分 96
小毛激励我好好学习
这个作者很懒,什么都没留下…
展开
-
2019-BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
文章目录1. Title2. Summary3. Problem Statement4. Method(s)4.1 BERT4.1.1 Model Architecture4.1.2 Input/Output Representations4.2 Pre-Training BERT4.2.1 Masked Language Model (MLM)4.2.2 Next Sentence Prediction (NSP)4.3 Fine-tuning BERT5. Evaluation6. Conclusion原创 2021-06-09 17:41:40 · 366 阅读 · 0 评论 -
2021-Twins: Revisiting the Design of Spatial Attention
1. TitleTwins: Revisiting the Design of Spatial Attention in Vision Transformershttps://github.com/Meituan-AutoML/Twins2. Summary写完笔记之后最后填,概述文章的内容,以后查阅笔记的时候先看这一段。3. Problem Statement相较于CNN来说,Transformer由于其能高效地捕获远距离依赖的特性,近期在计算机视觉领域也引领了一波潮流。Transform原创 2021-05-31 19:01:39 · 743 阅读 · 0 评论 -
2018-Self-Attention with Relative Position Representations
文章目录1. Title2. Summary3. Problem Statement4. Method(s)4.1 Relation-aware Self-Attention4.2 Relative Position Representation4.3 Efficient Implementation5. Evaluation6. Conclusion1. TitleSelf-Attention with Relative Position Representationshttps://github.原创 2021-05-21 12:03:40 · 1135 阅读 · 0 评论 -
2021-Conditional Positional Encodings for Vision Transformers
1. TitleConditional Positional Encodings for Vision Transformershttps://github.com/Meituan-AutoML/Twins2. Summary本文主要是对Transformer中的Positional Encoding问题进行了探索,之前的PE都存在一定的问题:例如无法适应不同长度的序列、不具有平移不变性等。基于这些问题,本文提出了Conditional Positional Encoding。主要方法是将序列原创 2021-05-19 16:06:36 · 2338 阅读 · 3 评论 -
2021-Swin Transformer Attention机制的详细推导
1. TitleSwin Transformer: Hierarchical Vision Transformer using Shifted Windows2. Summary写完笔记之后最后填,概述文章的内容,以后查阅笔记的时候先看这一段。3. Problem Statement卷积操作由于其权值共享、Locality、滑窗等特性,天然比较适合对图像的各种特征进行建模,因此,也成为了计算机视觉领域的主流架构。但是随着近些年的研究,CNN结构的性能逐渐达到了一个瓶颈,CNN结构的locality原创 2021-04-26 20:15:34 · 10509 阅读 · 28 评论