最近重新认真学习了一下Transformer在cv中的代表网络。虽然网上讲解很多但还是得自己过一遍啊,理解一下各处细节处理。为了防止学了就忘,结合代码画了两张图并做了一些笔记。细节可能有差错,欢迎指正。
End-to-End Object Detection with Transformers (DETR,2020)
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT,2020)
最近重新认真学习了一下Transformer在cv中的代表网络。虽然网上讲解很多但还是得自己过一遍啊,理解一下各处细节处理。为了防止学了就忘,结合代码画了两张图并做了一些笔记。细节可能有差错,欢迎指正。
End-to-End Object Detection with Transformers (DETR,2020)
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT,2020)