vision transformer系列
文章平均质量分 92
vision transformer以及其各种变体的网络结构,模块论文,原理,代码总结。帮助读者快速入门以及了解近年来transformer在CV算法领域的发展
机械系的AI小白
国内头部某互联网公司,世界500强企业高级图像算法工程师。专注CV领域算法,包括high-level任务,分割检测;low-level任务,图像超分,图像修复,hdr增强等,最新AIGC技术;以及端侧算法落地,模型压缩、高效模型设计、蒸馏、量化等。
展开
-
VIT(Vision Transformer)系列论文汇总
虽然transformer有比较强的全局特征提取能力,但是没有偏置(局部特征提取能力受限),计算量大,耗时(和分辨率的平方成正比的计算复杂度)等。笔者认为,想学好transformer在CV领域的应用,并且最终能够用到自己的工作或项目当中,甚至提出新的网络结构,应该要全面地先对transformer的优缺点有充足的了解以及理解;并且全面了解其发展,以及每个时期的不同transformer为基础的网络结构的变化,改进方法,相互之间的联系。通过大量阅读相关的论文,以及代码,来建立起一个相对完整的知识体系。原创 2024-09-02 23:31:27 · 878 阅读 · 0 评论 -
MobileViT原理与代码总结
MobileViT原理和代码介绍原创 2024-09-04 22:43:42 · 894 阅读 · 0 评论 -
原始VIT(Vision Transformer)总结(原理与代码)
论文地址:2010.11929 (arxiv.org) 参考代码地址:GitHub - google-research/vision_transformer Transformer最开始是NLP领域提出的一篇文章,transformer因为其长依赖捕捉,出色的全局特征提取,以及关键特征相关性表征的能力,在NLP领域(比如机器翻译等)取得了巨大的成功。而Transformer中最突出的一个结构就是多头自注意力(multi-head self-attention), 通过这种toke原创 2024-09-01 15:48:08 · 1002 阅读 · 0 评论