【李沐论文精读 跟读】
文章平均质量分 95
秃头少女Emily
这个作者很懒,什么都没留下…
展开
-
【李沐论文精读】多模态论文串讲(上)和(下)精读
在多模态学习之前都是Oscar或者Uniter等这些工作,他们的缺陷都是因为里面用了一个Object Detection的模型去做视觉特征的抽取,太慢且太贵了。所以在出来之后,ViLT的作者就想到可以把vision部分用Vision Transformer去代,就一个Embedding层,这样一来大大简化了模型结构。,是ICML21的工作)CLIP。原创 2024-03-17 14:15:39 · 1957 阅读 · 1 评论 -
【李沐论文精读】CLIP改进工作串讲精读
LSeg、GroupViT、ViLD、GLIP、GLIPv2、CLIPPasso、CLIP4Clip、Action CLIP原创 2024-03-14 16:42:05 · 1729 阅读 · 0 评论 -
【李沐论文精读】ViLT精读
ViLT也是一个极其简单的视觉-文本多模态的框架。其最主要贡献:就是把多模态学习框架中的目标检测,也就是论文中反复强调的Region Feature(区域性特征)直接拿掉了。这个操作简直算是神来之笔,因为它极大地简化了视觉模态特征的抽取过程,大大提高了模型的推理速度,可称之为多模态领域一个里程碑式的工作。原创 2024-03-12 16:27:12 · 1389 阅读 · 0 评论 -
【李沐论文精读】CLIP精读
是一种基于对比文本-图像对的预训练方法。CLIP用文本作为监督信号来训练可迁移的视觉模型,使得最终模型的zero-shot效果堪比ResNet50,泛化性非常好。CLIP算是在跨模态训练无监督中的开创性工作,作者在开头梳理了现在vision上的训练方式,从有监督的训练,到弱监督训练,再到最终的无监督训练。这样训练的好处在于可以避免的有监督的 categorical label的限制,具有zero-shot性质,极大的提升了模型的实用性能。CLIP 最大的贡献就是打破了之前固定种类标签的范式。原创 2024-03-12 12:15:35 · 1431 阅读 · 0 评论 -
【李沐论文精读】GPT、GPT-2和GPT-3论文精读
zero-shot例子(这就可以看到ChatGPT雏形了):原创 2024-03-07 16:24:50 · 6856 阅读 · 0 评论 -
【李沐论文精读】BERT精读
BERT(BEncoderRTransformer,双向Transformer编码器)。与最近的语言表示模型(ELMo,GPT)不同,BERT的所有层旨在通过联合训练左右上下文的方式从未标注文本中预训练深层的双向表征。BERT是基于EMLo和GPT(单向的Transformer编码器)的。BERT:设计用来训练深的双向表示,使用没有标号的数据,再联合左右的上下文信息。原创 2024-03-06 17:40:20 · 1162 阅读 · 0 评论 -
【李沐论文精读】GAN精读
什么是GAN?GANGenerative adversarial network,生成对抗网络),它由生成器G(Generator Neural Network)和判别器D(Discriminator Neural Network)组成,生成器G负责生成样本,判别器D负责判断生成器生成的样本是否为真。生成器要尽可能迷惑判别器,而判别器要尽可能区分生成器生成的样本和真实样本。生成器G从给定噪声中(一般是指均匀分布或者正态分布)采样来合成数据,判别器D用于判别样本是真实样本还是G生成的样本。原创 2024-03-05 20:19:29 · 1402 阅读 · 0 评论 -
【李沐论文精读】Transformer精读
主流的序列转换(sequence transduction)模型都是基于复杂的循环或卷积神经网络,这个模型包含一个编码器(encoder)和一个解码器(decoder)。具有最好性能的模型在编码和解码之间通过一个注意力机制链接编解码器。我们提出了一个新的简单网络架构——基于attention 的Transformer。其仅仅是基于注意力机制,而完全不需要之前的循环或卷积。在两个机器翻译任务上的实验BLEU 表明,该模型具有更好的性能,同时并行度更好,并且训练时间更少。(泛化到其它任务效果也不错)原创 2024-03-05 15:07:49 · 1451 阅读 · 0 评论 -
【李沐论文精读】Resnet精读
深度神经网络的优点:可以加很多层把网络变得特别深,然后不同程度的层会得到不同等级的feature,比如低级的视觉特征或者是高级的语义特征。但是学一个好的网络,就是简简单单的把所有网络堆在一起就行了吗?如果这样,网络做深就行了。提出问题:随着网络越来越深,梯度就会出现爆炸或者消失深入讲述了深度增加了之后精度也会变差 下面这张图就对应了上一张图的简笔画。残差连接如何处理输入和输出的形状是不同的情况implementation中讲了实验的一些细节A. pad补0,使维度一致;B. 维度不一致的时候,使其映射到统一原创 2024-03-04 14:31:01 · 991 阅读 · 0 评论