Transformer
文章平均质量分 77
5月8日-5月14日记录
JaJaJaJaaaa
尽力而为
展开
-
Transformer论文笔记4----采用最大池化压缩模型参数量(不含class token)
论文:Scalable Visual Transformers with Hierarchical PoolingViT保持patch序列全长度,这使得信息冗余,缺乏层级特征表示。因此提出一种Hierarchical Visual Transformer,采用渐进的池化token压缩序列长度,减少计算损失,类似于CNN中的特征图下采样,本文没有采用class token ,而是采用平均池化代替单一的class token,实验表明,平均池化更能获取位置信息。背景:自注意力你能够捕获长距离依赖,但是tr原创 2021-05-27 20:24:28 · 960 阅读 · 0 评论 -
Transformer论文笔记3----卷积池化操作用于提高空间交互率和尺寸缩放,全连接class token
Rethinking Spatial Dimensions of Vision Transformershttps://github.com/naver-ai/pit借鉴CNN的空间维度转换思想,随着网络加深,通道数增加,空间维度减少。提出Pooling-based Vision Transformer (PiT),实验表明PiT提高了模型性能和泛化能力,在图像分类,目标检测和鲁棒性评估表现良好。CNN有限空间的位置交互,ViT允许所有位置通过transformer layer进行交互。同时,CNN原创 2021-05-27 20:13:21 · 2136 阅读 · 2 评论 -
Transformer论文笔记2----借鉴卷积的渐进缩放模型实现金字塔设计用于dense prediction任务
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without ConvolutionsViT存在的问题是,输入和输出的尺寸相同,因而也就无法处理较大尺寸输入的图片。借鉴CNN的网络,随着网络层数的加深,逐步减小特征尺寸的同时增加通道数,也就是信息的维度,这样可以在实现特征深层提取的同时,能够应对不同尺寸的数据。本文同样提出来dense prediction task密集预测任务的概念,主要针对目标检测和语义分原创 2021-05-27 20:10:26 · 574 阅读 · 0 评论 -
Transformer论文笔记1----利用Encoder的一种图片线性切分方法用于图像分类任务
AN IMAGE IS WORTH 16X16 WORDS TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE作为一种self-attention架构,transformer的主要方法是在一个较大文本语料库进行预训练,然后在一个小的特定任务数据集上进行微调。但是实验表明,在大尺寸架构如ResNet上训练后再迁移至中等尺寸数据集,分类正确率往往降低几个百分点,这是由于transformer缺乏CNN的固有的inductive bias,因而在数据不充分情况时不能很好泛化。原创 2021-05-27 20:09:07 · 1023 阅读 · 1 评论 -
关于transformer的几个为什么
如何实现的任意长度序列处理?padding mask机制,也就是对于不同长度的句子,按最长sequence length 和最长embedding dimension进行补齐,补齐的是0,但是LN层会有softmax,对于e的0次方并不是0,导致占据一定概率,因而需要处理一下,如补齐的位置设置负无穷,softmax之后也基本为0。什么叫self-attention?就是自注意机制,当前时刻的输入不止关注该时刻及以前时刻的相关,也关注未来时刻的,也就是关注所有的,计算相关性,得出attentio..原创 2021-05-27 20:06:45 · 2980 阅读 · 0 评论