![](https://img-blog.csdnimg.cn/direct/bb1f0d5fc5c548a797624b66a8d332fc.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
深入浅出多模态
文章平均质量分 96
本专栏为《深入浅出多模态》系列,将从整体介绍多模态模型发展,结合综述对各个模型按照发展时间线及发展对应关系进行介绍,后续将对其中经典及最新多模态模型进行解决,从具体论文、数据集、代码、模型结构、结果等角度分析,本专栏适合从事多模态小白及爱好者学习,欢迎大家关注!
GoAI
CSDN人工智能领域博客专家、新星计划计算机视觉方向导师、内容合伙人。阿里云社区专家博主、百度飞桨PPDE、飞桨校领航团团长、开源特训营导师,曾获多次AI比赛奖项及大厂实习,长期专注大数据与人工智能知识分享,相关合作和交流可私信。
展开
-
《深入浅出多模态》(一):多模态模型论文最全总结
本文为《深入浅出多模态》系列第一章,《多模态模型论文最全总结》将从整体介绍多模态模型发展,结合综述对各个模型按照发展时间线及发展对应关系进行介绍,后续将对其中经典及最新多模态模型进行解决,从具体论文、数据集、代码、模型结构、结果等角度分析,本专栏适合从事多模态小白及爱好者学习,欢迎大家关注,如有侵权请联系删除!原创 2024-01-24 18:37:24 · 1653 阅读 · 2 评论 -
多模态大模型少样本自适应综述
为了通过微调提高模型的泛化性能,研究人员首先提出了基于提示的微调适应方法(例如,CoOp [14]),该方法将CLIP文本端的固定文本输入视为可学习的向量,然后使用少量样本进行微调,以适应下游任务。此外,引入基础语言模型或外部知识(如知识图谱,例如,CuPL [16])的方法可以帮助模型更好地处理未见样本,增强其语义理解和鲁棒性,从而提高其在少样本适应任务中的性能。因此,在这篇综述中,本文介绍并分析了多模态模型少样本适应方法的研究进展,总结了常用的数据集和实验设置,并比较了不同方法的结果**。原创 2024-05-13 10:45:00 · 114 阅读 · 0 评论 -
《深入浅出多模态》之多模态经典模型:BLIP2
本文为《深入浅出多模态》系列多模态经典模型BLIP2,首先从整体介绍多模态模型发展,对其中经典BLIP2模型进行详述,通过利用预训练的视觉模型和语言模型来提升多模态效果和降低训练成本,预训练的视觉模型能够提供高质量的视觉表征,预训练的语言模型则提供了强大的语言生成能力。原创 2024-04-28 10:30:00 · 228 阅读 · 1 评论 -
《深入浅出多模态》: 多模态经典模型:BLIP
本文为《深入浅出多模态》系列多模态经典模型BLIP,首先从整体介绍多模态模型发展,对其中经典BLIP模型进行详述,从具体论文、数据集、代码、模型结构、结果等角度分析,本专栏适合从事多模态小白及爱好者学习,欢迎大家关注,如有侵权请联系删除!原创 2024-04-20 14:10:50 · 475 阅读 · 1 评论 -
《深入浅出多模态》:多模态经典模型ALBEF
本文为《深入浅出多模态》系列多模态经典模型ALBEF,对经典ALBEF模型进行详述,核心为图文对齐后再融合,借助动量蒸馏高效学习多模态表征,从具体论文、数据集、代码、模型结构、结果等角度分析,本专栏适合从事多模态小白及爱好者学习,欢迎大家关注,如有侵权请联系删除!原创 2024-04-20 13:46:13 · 281 阅读 · 0 评论 -
文生视频:Sora模型报告总结
我们探索视频数据生成模型的大规模训练。具体来说,我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。我们利用对视频和图像潜在代码的时空补丁进行操作的变压器架构。我们最大的模型 Sora 能够生成一分钟的高保真视频。我们的结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。总结:Sora包含了DALL·E 3 的recaption技术 + 图像/视频Patches + Transformers + Latent Diffusion + 原始数据分辨率训练。原创 2024-02-16 17:58:54 · 2201 阅读 · 0 评论 -
《深入浅出多模态》:多模态经典模型CLIP
本文为《深入浅出多模态》系列多模态经典模型CLIP,首先从整体介绍多模态模型发展,对其中经典CLIP模型进行详述,从具体论文、数据集、代码、模型结构、结果等角度分析,本专栏适合从事多模态小白及爱好者学习,欢迎大家关注,如有侵权请联系删除!原创 2024-04-07 19:42:03 · 143 阅读 · 1 评论 -
《深入浅出多模态》(二):多模态任务及数据集介绍
本文为《深入浅出多模态》系列第二章,《多模态任务介绍与背景》主要介绍多模态模型的概念、技术难点、下游任务(Visual Grounding、VQA、image/Video Captioning等)及各类应用方向数据集展开介绍,本专栏适合从事多模态小白及爱好者学习,欢迎大家关注,如有侵权请联系删除!原创 2024-02-04 10:30:00 · 1594 阅读 · 2 评论 -
《深入浅出多模态》(三):多模态任务前言知识
本章为《深入浅出多模态》系列的第三章,本文《深入浅出多模态:多模态任务前言知识》主要介绍多模态的基础知识,包括Transformer基础、多模态任务如何对齐(文本和图像的编码过程、预训练损失介绍),目的为后面学习多模态模型做理论准备,后续文章将按照多模态方向具体论文发展时间顺序进行更新。多模态学习的内容比较丰富,希望和大家一起在多模态领域学习成长~原创 2024-02-23 10:30:00 · 1816 阅读 · 0 评论 -
《深入浅出多模态》:智能文档处理多模态大模型总结
本文为《深入浅出多模态》系列,《OCR文档任务多模态预训练模型总结》主要介绍OCR文档任务的多模态模型的经典论文及内容结构展开介绍。大模型时代的现实场景或者企业私域数据中,大多数数据都以文档的形式存在,如何更好的解析获取文档数据显得尤为重要。文档智能也从以前的目标检测(版面分析)阶段转向多模态预训练阶段,本文将介绍目前一些前沿的多模态预训练模型及相关数据集。本专栏适合从事多模态小白及爱好者学习,欢迎大家关注,如有侵权请联系删除!原创 2024-02-13 14:00:00 · 1888 阅读 · 0 评论