学习
文章平均质量分 79
学渣渣渣渣渣
我是菜
深度学习方向,欢迎交流~
展开
-
【Vit】Vision Transformer 入门与理解
注意上图中有些细节遗漏,全流程应该是:先把输入进行 patch_embedding 变成 visual tokens,然后和 class_token 合并,最后 position_embedding。看图就比较明白了,VIT只用了Encoder的部分,把每一个图片裁剪成若干子图,然后把一个子图flatten一下,当成nlp中的一个token处理。其实有了 Transformer 的基础后,直接看代码就知道VIT是怎么做的了。原创 2024-04-11 17:18:57 · 421 阅读 · 0 评论 -
【transformer】入门与理解
本文介绍了transformer。原创 2023-03-06 22:41:01 · 473 阅读 · 0 评论