![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
AIGC论文笔记
文章平均质量分 82
O_meGa
这个作者很懒,什么都没留下…
展开
-
8、VAE:变分自编码器
VAE它本质上就是在我们常规的自编码器的基础上,对encoder的结果(在VAE中对应着计算均值的网络)加上了“高斯噪声”,使得结果decoder能够对噪声有鲁棒性;而那个额外的KL loss(目的是让均值为0,方差为1),事实上就是相当于对encoder的一个正则项,希望encoder出来的东西均有零均值。那另外一个encoder(对应着计算方差的网络)的作用呢?它是用来动态调节噪声的强度的。原创 2024-01-21 16:16:24 · 1200 阅读 · 0 评论 -
7、DETR:基于Transformer的端到端目标检测
尽管在速度上可能不如一些专门为实时应用设计的检测模型,DETR的架构为未来的研究和应用提供了一个有趣的新方向。包括编码器和解码器。,可以发现,不同于Faster RCNN, RetinaNet等方法在特征的每个像素上构建稠密的anchor不同,detr只用少量稀疏的anchor(object queries)做预测,这也启发了后续的一系列工作。:DETR彻底改变了目标检测的传统流程,实现了真正的端到端训练,将图像特征提取、目标定位和分类任务全部整合在Transformer中,提升了模型的整体优化效果。原创 2024-01-18 13:16:15 · 1060 阅读 · 0 评论 -
6、CLIP:连接文本和视觉世界的预训练模型
一下引自神器CLIP:连接文本和图像,打造可迁移的视觉模型 - 知乎在计算机视觉领域,最常采用的迁移学习方式就是先在一个较大规模的数据集如ImageNet上预训练,然后在具体的下游任务上再进行微调。这里的预训练是基于有监督训练的,需要大量的数据标注,因此成本较高。近年来,出现了一些基于自监督的方法,这包括基于对比学习的方法如MoCo和SimCLR,和基于图像掩码的方法如MAE和BeiT,自监督方法的好处是不再需要标注。原创 2024-01-16 08:00:00 · 2734 阅读 · 0 评论 -
5、MAE:探索视觉预训练模型
(2)语言和视觉的信息密度(information density)差异巨大,前者是强语义的,高信息密度的(highly semantic and information-dense),在NLP中即使只mask一个token,对模型来说可能都是很难的任务,因此模型可以通过学习获得复杂的语言理解能力(sophisticated language understanding),但是对视觉图像来说,信息是高度冗余的,缺失一个patch,可能并不会让模型产生多少困惑,模型可以通过周围的像素信息进行推断。原创 2024-01-11 22:16:36 · 1488 阅读 · 2 评论 -
2、BERT:自然语言处理的变革者
BERT(Bidirectional Encoder Representations from Transformers)是Google在2018年提出的一种自然语言处理(NLP)预训练模型。BERT模型的创新之处在于它采用了Transformer的编码器架构,并且是第一个真正基于双向上下文进行训练的语言表示模型,这使得它在一系列语言理解任务上取得了当时的最先进性能。2、什么是BERT?原创 2024-01-10 10:49:36 · 661 阅读 · 0 评论 -
4、Swin Transformer:视觉Transformer的革新之路
在此转换之后,一些窗口可能由特征映射中不相邻的几个子窗口组成(这些不连续的部分是不应该参与注意力计算的),因此采用mask机制(NLP中的masking 屏蔽不应该需要的信息)将注意力计算计算限制在每个子窗口内。总结来说,Swin Transformer巧妙地融合了CNN和Transformer的优点,突破了传统Transformer在视觉任务中的局限性,为视觉领域的研究开辟了新的方向,展现出卓越的性能和广泛的应用前景。故而引入SW-MSA通过移位窗口的方式,引入跨窗口连接的同时保持非重叠窗口的高效计算。原创 2024-01-10 08:00:00 · 1543 阅读 · 0 评论 -
3、Vision Transformer (ViT): 开启视觉识别的新纪元
ViT的最大创新之处在于其采用了Transformer中的自注意力机制,摒弃了卷积层,能够对输入图像进行全局分析,这使得模型可以更好地理解和学习图像中的长距离依赖关系,从而提升模型性能。Transformer处理:接下来,这些patch embeddings作为Transformer的输入,经过多层自注意力和前馈神经网络层的处理,提取出高层次的特征表示。分类头:最后,将Transformer的输出经过分类头进行处理,得到最终的类别预测。ViT (Visual Transformer) - 知乎。原创 2024-01-08 11:06:48 · 1167 阅读 · 0 评论 -
1、理解Transformer:革新自然语言处理的模型
位置编码是以一种特定的模式添加的,它对每个位置上的嵌入向量进行修改,使得不同位置的嵌入向量能够反映出它们的位置关系。Transformer 编码器的结构由多个相同的层(layer)堆叠而成,每一层都有两个主要子模块,以及一个残差连接跟随每个子模块,最后是层归一化(Layer Normalization)。由于 Transformer 的自注意力机制并不区分序列中不同位置的元素,即它本身不像循环神经网络(RNN)那样具有处理序列的固有顺序性,所以需要一种方法来保证模型能够利用单词的顺序信息。原创 2024-01-07 16:59:04 · 2189 阅读 · 0 评论 -
0、深度学习论文精读
深度学习经典、新论文逐段精读. Contribute to mli/paper-reading development by creating an account on GitHub.GitHub - mli/paper-reading: 深度学习经典、新论文逐段精读。原创 2024-01-05 14:31:02 · 327 阅读 · 0 评论