多模态
文章平均质量分 97
HERODING77
本科大连理工大学软件工程,目前华东师范大学数据学院硕士在读,兴趣方向为智能体,LLM,自然语言处理,知识图谱,NER,联邦学习,数据结构与算法。
展开
-
【论文精读】Robust Speech Recognition via Large-Scale Weak Supervision
语音领域的又一力作,来自OpenAI团队,中稿于ICML 2023。本篇文章剑走偏锋,不同于当前火热的自监督预训练 ,而是采用大规模的弱监督预训练,特别适用于语音场景,这也为启发了广大的AI科研人员,做研究不能一股脑蹭热度,而是要根据特定的场景对症下药。PaperCodeFromICML 2023本文探索了语音处理系统通过简单训练从而处理互联网大量音频转录的能力。作者在68万小时的多语言多任务的数据上进行预训练,得到的模型无需微调就可以和完全监督相竞争,接近人类的性能。原创 2023-10-16 10:51:37 · 432 阅读 · 0 评论 -
【学习笔记】多模态综述
本篇学习笔记虽然是多模态综述,本质上是对ViLT后多模态模型的总结,时间线为2021年至2022年,在这两年,多模态领域的模型也是卷的飞起,不断刷新领域的SOTA。在模型结构和数据上提出了很多高效有用的方法,如果你对多模态近两年的发展感兴趣,不妨看一看这一篇文章~上述的一系列工作可以总结为上面这张图。本文关于多模态的工作其实是从ViT出发的,之前多模态领域对于图像特征的抽取都需要借助CNN架构的模型和目标检测任务,效率低,性能差。随着ViT提出后,多模态领域终于实现文图框架上的统一,即ViLT工作的诞生。原创 2023-09-20 11:11:39 · 518 阅读 · 0 评论 -
【论文精读】ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision
本篇工作是BERT和ViT在多模态领域的结合,在大大提高模型轻量性的同时又保证了性能,是多模态领域里程碑具有意义的工作。PaperCodeFromICML 2021视觉和语言的预训练(VLP)提高了各个VL下游任务的性能,当前的VLP严重依赖图像特征的抽取,包括区域监督和卷积架构,导致在时效(计算量大,时间长)和表征能力(效果好坏取决于表征好坏)上存在问题。原创 2023-09-15 18:04:03 · 260 阅读 · 0 评论 -
【论文精读】Hierarchical Text-Conditional Image Generation with CLIP Latents
本篇工作即DALL·E2,是文生图领域和多模态领域具有轰动性的工作,其一出现就上了各大板块的热搜。DALL·E2生成的图像丰富且真实,很容易以假乱真。它的实现基于CLIP和扩散模型,前者结合丰富的图文语义,后者生成多样高质量图像,这套组合拳可谓实力十足。下面就来看看这篇工作具体是怎么做的吧。PaperCodeFrom对比学习模型如CLIP展现了其强大的图像语义和风格的表征。为了利用这些表征来进行图像的生成,作者提出了两阶段模型:prior模型通过文本描述生成图像表征,解码器模型根据图像表征生成图像。原创 2023-09-11 16:35:26 · 661 阅读 · 0 评论 -
【论文通读】CLIP改进工作综述
CLIP作为多模态对比学习里程碑式工作,在创新性,有效性和领域性三个方面都拉满了。本篇博客就来探讨在CLIP之后,各个领域是如何利用CLIP去提升当前领域的性能,以及如何利用CLIP信息整合的能力在多模态领域做大做强。将图文通过CLIP得到特征,然后将这些特征融合起来去做之前的任务,加强模型的训练。把CLIP特征作为teacher,和当前的模型做蒸馏,学习到更好的预训练知识。借鉴CLIP的思想,应用到当前领域,自己定义对比学习和正负样本。原创 2023-09-06 12:23:29 · 1537 阅读 · 0 评论 -
【论文精读】Learning Transferable Visual Models From Natural Language Supervision
CLIP作为多模态对比学习里程碑式工作,在创新性,有效性和领域性三个方面都拉满了。它最伟大的地方在于,打破了固有的基于给定类别分类的壁垒,让即使是未见过的类也能给出很好的结果,这大大提升了模型的灵活性,也让其更适配多种下游任务。PaperCodeFromICML2021目前CV系统最佳的模型都是基于固定对象类别进行训练的。这种监督训练方式限制了它们的通用性和可用性,直接从原始文本中学习图像是一种很有前途的替换方案,它可以利用更广泛的监督来源。原创 2023-09-02 18:23:30 · 765 阅读 · 0 评论