![](https://img-blog.csdnimg.cn/20190918140037908.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
论文笔记
文章平均质量分 72
论文笔记
Triton安
这个作者很懒,什么都没留下…
展开
-
timm库
视觉 Transformer 优秀开源工作:timm 库 vision transformer 代码解读 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/3508372791 什么是 timm 库?PyTorchImageModels,简称 timm,是一个巨大的PyTorch代码集合,包括了一系列:image models layers utilities optimizers schedulers data-loaders / augm..原创 2022-03-12 20:07:31 · 1826 阅读 · 0 评论 -
论文笔记——Long-Short Transformer: Efficient Transformers for Language and Vision
一、short term attention这里的操作是对于单一的一个attention head来说的1.n是patch的数量, d是patch的dimension,对于所有的,只与其相邻的进行attention,必要时边界采用zero padding。eg1:第一个q和第二个q 只会和他们window内的4个进行attention。2.维度:Q :n*d ; W: d*dk ; K、V: 2w*d二、long term attention这里的操作是对于单一的一个a...原创 2022-02-19 15:24:11 · 260 阅读 · 2 评论 -
论文笔记——Cat cross attention in vision transformer
同期论文如Swin Transformer和Pyramid Vision Transformer都很不错!不过这里只简单介绍CAT。提出了一种新的注意力机制,称为Cross Attention,它在图像块内而不是整个图像中交替注意以捕获局部信息,并结合Transformer构建为CAT,表现SOTA。性能优于PVT、CrossViT等网络。对图像进行Tokenization之后,用图像块替换Transformer的word tokens所需的计算量很大(例如ViT),这会成为模型训练和推理的瓶颈。而C原创 2022-01-08 10:48:01 · 332 阅读 · 0 评论 -
论文笔记——early convolutions help transformers see better
一、motivation二、solution原创 2021-12-21 11:06:24 · 263 阅读 · 0 评论 -
论文笔记——rethinking the self attention in vision transformer
本文的核心思想:1.在前层的attention map非常稀疏,可以用一个mask来减少计算量。(具体看文章如何实现mask)2.attention可以分为三种Relative position based attentionAbsolute position based attentionContent-based attention...原创 2021-12-12 14:24:53 · 90 阅读 · 0 评论 -
论文笔记——Metaformer is all you need
论文的核心思想是即使是用pooling 的 token mixer效果也很好。原创 2021-12-12 14:18:18 · 87 阅读 · 1 评论 -
论文笔记——deit
一、概念解释:1.归纳偏置(inductive bias)研究人员在构建新的机器学习模型和训练范式时,通常会使用一组被称为归纳偏置(inductive biases)的特定假设,来帮助模型从更少的数据中学到更通用的解决方案。其实就可以理解为先验知识。2.label smoothing1.减少标注错误带来的影响2.减少过拟合二、论文核心总结实际上这篇文章就是提出了用distillation token来从teacher那里学习一个inductive bias,减少原创 2021-12-08 19:03:00 · 126 阅读 · 0 评论 -
论文笔记——Can Vision Transformers Perform Convolution?
一、问题引出与初步结论二、具体细节原创 2021-11-15 15:17:02 · 114 阅读 · 0 评论 -
论文笔记——IOS: INTER-OPERATOR SCHEDULER FOR CNN ACCELERATION
1.Abstract先行对CNN的加速是优化内部并行单一operator,然而,鉴于高性能硬件的快速发展,单个算子无法再充分利用可用的并行性,所以提出IOS,自动规划多种operator的并行处理基于新的动态编程算法。2.Introduction2.1 motivation1.之前的方法是在单一operator间进行并行优化,但是现在硬件的算力在猛烈提升,但对于CNN operator间的并行却没有考虑。2.CNN的设计方式从单一branch变成了多个branch的设计,导致每原创 2021-11-06 11:18:26 · 128 阅读 · 0 评论 -
论文笔记——Mobile-Former: Bridging MobileNet and Transformer
一、摘要本文提供了Mobile-Former,是一种由双向桥将MobileNet和Transformer并行连接的结构。桥允许双向融合局部与全局特征。Mobile-Former有较少的随机初始化的tokens(少于6个),导致了低计算量。接着描述了实验结果:Combining with the proposed light-weight cross attention to model the bridge,Mobile-Former is not only computational原创 2021-11-02 18:37:44 · 438 阅读 · 0 评论 -
论文笔记——Attention is all you need(2)代码
一原创 2021-09-19 11:44:57 · 2550 阅读 · 0 评论 -
论文笔记——TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
一、背景1.Transformer 架构早已在自然语言处理任务中得到广泛应用2.在计算机视觉领域,注意力要么与卷积网络结合使用,要么用来代替卷积网络的某些组件,同时保持其整体架构不变。3.基于自注意力的架构,尤其 Transformer,已经成为 NLP 领域的首选模型。该主流方法基于大型文本语料库进行预训练,然后针对较小的任务特定数据集进行微调。由于 Transformer 的计算效率和可扩展性,基于它甚至可以训练出参数超过 100B 的模型。随着模型和数据集的增长,性能仍然没有饱和的迹象。原创 2021-10-26 12:41:19 · 264 阅读 · 0 评论 -
论文笔记——Attention Is All You Need(1)
一、Bleu评价(Bilingual Evaluation Understudy)机器翻译的结果越接近人工参考译文就认定它的质量越高。1、N-gramN-gram 准确率(N-gram Precision)n-gram是指n 个连续单词组成的单元,称为n 元语法单元。n 越大表示评价时考虑的匹配片段越大BLEU的计算首先考虑待评价译文中n-gram在参考答案中的匹配率,称为n-gram 准确率(n-gram Precision)。其计算方法如下: 例如:原文:今天天气不..转载 2021-09-08 10:56:30 · 467 阅读 · 0 评论