Multimodal
文章平均质量分 87
多模态的paper们
爱睡觉的Raki
我不能只做观众
展开
-
Raki的读paper小记:An Image is Worth One Word Personalizing Text2Image using Textual Inversion
跟prompt非常类似,但是用了图片在特征空间的表示来学习。原创 2022-09-25 00:09:47 · 2154 阅读 · 0 评论 -
Raki的读paper小记:Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks
在视觉任务上,可惜没看到NLP那边杀起来。原创 2022-09-02 20:19:31 · 1474 阅读 · 0 评论 -
Raki的读paper小记:CLIP:Learning Transferable Visual Models From Natural Language Supervision
然后,可以通过自然语言提示利用该任务学习,以实现对许多现有数据集的zero-shot。在足够的规模下,该方法的性能可以与任务特定的监督模型匹敌,尽管仍有很大的改进空间。算是小神作,实验巨大巨全,启发了后面多模态很多很多的工作,初步展现大模型在多模特领域的超强威力。我们发现,采用该范式会使计算机视觉领域出现类似行为,并讨论了这一研究领域的社会影响。我们研究了是否有可能将NLP中任务无关的网络规模预训练的成功转移到另一个领域。使用自然语言作为监督信号,把规模做大,并且不需要标注。原创 2022-09-02 17:30:32 · 892 阅读 · 0 评论 -
Raki的读paper小记:SimVLM: SIMPLE VISUAL LANGUAGE MODEL PRETRAINING WITH WEAK SUPERVISION
在我们的初步实验中,我们发现编码器-解码器模型引入的inductive bias将编码与生成解耦,有助于改善下游任务。另一方面,我们的PrefixLM公式是模态无关的,因此我们可以另外包括纯文本语料库,以补偿alt文本数据中的噪声文本监督。与以前的MLM风格的VLP方法相比,我们在序列到序列框架下的PrefixLM模型不仅享有MLM中的双向上下文表示,而且可以执行类似于LM的文本生成。我们的工作为现有的VLP范式提供了一个很有前途的替代方案,我们希望我们的工作能够启发生成VLP的未来研究。......原创 2022-08-16 20:49:00 · 864 阅读 · 0 评论 -
Raki的读paper小记:OFA: UNIFYING ARCHITECTURES, TASKS, AND MODALITIES THROUGH A SIMPLE Seq2Seq FRAMEWORK
研究任务已有方法和相关工作面临挑战创新思路实验结论为了在保持多任务性能和易用性的同时更好地泛化开放式问题,我们认为全能模型应具有以下三个属性:1.):支持不同类型任务的统一任务表示,包括分类、生成、自监督代理(pretext-task)任务等。并且对预训练或fine-tune不可知2.:所有任务之间共享的统一输入和输出表示,以处理不同的模态3.:足够的任务多样性,以稳健地积累泛化能力。原创 2022-08-21 22:40:21 · 1141 阅读 · 0 评论 -
Raki的读paper小记:ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision
研究任务已有方法和相关工作面临挑战创新思路实验结论。原创 2022-09-02 16:14:28 · 437 阅读 · 0 评论