![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
多媒体和多模态
文章平均质量分 93
多模态内容理解
上杉翔二
悠闲地不定期更新多模态、搜索推荐、基础技术、前沿追踪的翔二
展开
-
基于LLMs的多模态大模型(PALM-E,ArtGPT-4,VPGTrans )
本篇文章先放一些比较杂的延伸和应用的文章,后面形成分支了再单独开,目前主要是PALM-E,ArtGPT-4,VPGTrans 等。PALM-E是博主很关心的文章之一,它是一个562B的视觉语言模型(PaLM-540B + ViT-22B),有个是目前全球最大的视觉语言模型了。同时它将集成到机器人控制中,即多模态具身智能,这将为目前已经很强大的模型们加上机器人的手臂。关于多模态具身智能可以看博主以往的博文原创 2023-05-26 13:00:34 · 2224 阅读 · 0 评论 -
基于LLMs的多模态大模型(MiniGPT-4,LLaVA,mPLUG-Owl,InstuctBLIP,X-LLM)
前一篇博文的最后整理到KOSMOS-1,KOSMOS-1已经开始使用Unnatural Instruction进行微调,其能更好的服从用户需求,本篇博文将继续整理一堆最近出的文章们,包括粘合BLIP-2和Vicuna的MiniGPT-4模型,和一些使用Instruction Tuning来训练的文章们。原创 2023-05-26 12:57:03 · 4303 阅读 · 0 评论 -
基于LLMs的多模态大模型(Flamingo, BLIP-2,KOSMOS-1,ScienceQA)
本篇文章将介绍一些需要训练视觉编码器来适配多模态大模型的工作们,这也是目前最为流行的研究思路。其实早在2021年DeepMind发表Frozen的时候就已经有了few-shot甚至in-context learning的思路,博主在以往的博文中也有过介绍(Multimodal Few-Shot Learning with Frozen Language Models),此处简要回顾一下,如下图所示,Frozen先将图片编码成visual tokens,然后作为prefix跟文本的tokens一起输入到L原创 2023-05-26 12:55:06 · 5814 阅读 · 0 评论 -
基于LLMs的多模态大模型(Visual ChatGPT,PICa,MM-REACT,MAGIC)
当LLMs已经拥有了极强的对话能力后,如何使其拥有视觉和语音等多模态能力是紧接而来的热点(虽然GPT4已经有了),这个系列将不定期更新一些利用LLMs做多模态任务的文章。直觉上,如果直接训练一个类似chatgpt架构的多模态框架一定会消耗非常大的数据和计算量,此外如果每次增加一个新的模态,那现有框架都需要重新训练,这无论是对高校还是企业来说都是很难承担的代价。因此目前的文章都尝试利用一些策略或者适配的方法来连接语言模型和其他模型,特别是visual and language。原创 2023-05-26 12:53:37 · 2415 阅读 · 0 评论 -
多模态中的指令控制(InstructPix2Pix,SayCan)
整理一下关于多模态中的instruction tuning。图像的语言指令生成。目的是遵循人工指令去编辑图像,即给定输入图像和一个如何编辑它的文本指令,模型尝试遵循这些指令来编辑图像。 这份论文与现有基于文本的图像编辑工作们最大的不同在于原创 2022-12-10 18:23:28 · 3905 阅读 · 0 评论 -
扩散模型的迁移和应用(DiffusionDet,AR-LDM,MagicVideo,RenderDiffusion,AltDiffusion,VD)
本文将整理扩散模型在诸多任务上的实施方案和效果讨论,包括其用于目标检测、图像分割、连贯故事合成、视频生成、3D场景生成和推理、多语言扩展、多模态扩展等任务。原创 2022-12-10 18:18:16 · 8787 阅读 · 0 评论 -
多模态信息用于推荐系统问题(PMGT,MM-Rec,MGAT,TransRec)
而在实际的推荐系统中,推荐的物品可以是各种新闻、图片或视频(如上图的source domain的来源可以是任何信息),因此基于混合模态反馈的推荐模型是实现可迁移和通用推荐的重要途径,并且可以迁移到属于任何源领域模态组合的目标域(如上图target domain可以是单模态,也可以是多模态)。MGAT (Multimodal Graph Attention Network)的模型结构如上图,分为两条通道,首先信息会在不同模态的交互图上进行信息传播,再同时利用门控注意机制捕捉用户对不同模态的喜好。...原创 2022-08-29 00:58:35 · 2412 阅读 · 0 评论 -
Incomplete Multimodal Learning(不完整多模态学习)
博主已经更新过很多多模态系列的文章了,专栏传送门:多媒体与多模态专栏。可以发现多模态虽然效果很好,但需要保证“多个”模态都一定要存在。但是在现实世界中,部分模态的缺失是很常见的,因此不完整/缺失多模态学习(Incomplete Multimodal Learning)任务也十分值得探索。本篇博文将整理这一研究方向中一些不错的文章。Unified subspace learning for incomplete and unlabeled multi-view data比较早期的文章,任务是跨模态检原创 2022-05-04 19:10:44 · 10967 阅读 · 0 评论 -
多模态预训练模型选用指南(Vision-Language Pre-traning)
关于预训练的诸多模型,博主已经在以往的文章中整理过:Cross-modal Pretraining in BERT(跨模态预训练)OpenAI CLIP,DALL-ECLIP在视频领域的应用(CLIPBERT,CLIP4Clip,CLIP2Video,CLIPTV)本篇整理一下最近几篇关于Vision-Language Pre-traning(VLP)的综述文章,以及一篇很不错的,关于各个组件的选用指南文章。VLP: A Survey on Vision-Language Pre-traini原创 2022-05-03 17:57:06 · 3292 阅读 · 1 评论 -
对比学习的应用(SimCSE,CLEAR,DeCLUTR,DiffCSE)
前已经有博文整理过了对比学习的概念,比较重要且流行的文章,和一些已经有的应用,主要是在image或者video上的应用:Contrastive Learning(对比学习,MoCo,SimCLR,BYOL,SimSiam)对比学习的应用(CLCaption,C-SWM,CMC,SGL)对比学习的应用(LCGNN,VideoMoCo,GraphCL,XMC-GAN)本篇博文尝试整理几篇代表性的对比学习在句子表征上的文章们。SimCSE: Simple Contrastive Learning原创 2022-05-03 17:55:42 · 2215 阅读 · 0 评论 -
Nakaizura Blog Index(博文目录索引)
上杉翔二(nakaizura)的博文目标索引。整理下博客分类,只按时间分有点乱。一. 基础理论:机器学习基础,深度学习基础二. 流行技术:生成对抗,强化学习,图神经网络三. 应用领域:推荐系统,计算机视觉,自然语言处理,多媒体和多模态,金融量化四. 其他:备忘和github原创 2020-08-09 20:58:30 · 13059 阅读 · 3 评论 -
Multi-Modal Knowledge Graph(多模态知识图谱)
本篇博文梳理一篇knowledge-based方向的文章,结合了多模态知识的多模态知识图谱。来自复旦大学。知识图谱本质上是一个以实体、概念为节点、以概念之间的各种语义关系为边的大规模语义网络。知识图谱在现实生活中广泛应用,包括文本理解、推荐系.原创 2022-02-17 23:12:21 · 19099 阅读 · 4 评论 -
Masked Image Modelling(MAE,iBOT,Data2vec,SimMIM,CAE,BEVT)
这篇文章主要整理kaiming大神所提出的MAE,和一些有代表性的变体模型。Masked Autoencoders Are Scalable Vision Learners在iGPT和BEiT的基础上,化繁为简,找出了最关键的点,能够让BERT式预训练在CV上也能训到很好!在预训练期间,大比例的随机的图像块子集(如 75%)被屏蔽掉。编码器用于可见patch的小子集。在编码器之后引入掩码标记,并且完整的编码块和掩码标记集由一个小型解码器处理,该解码器以像素为单位重建原始图像。MAE 是一种简单的自.原创 2022-02-13 23:04:19 · 6276 阅读 · 0 评论 -
CLIP在视频领域的应用(CLIPBERT,CLIP4Clip,CLIP2Video,CLIPTV)
CLIP论文之后,涌现了很多任务,由于原始CLIP是为了图像设计的,因此这篇博文整理了几篇改装CLIP进行视频理解的工作。关于CLIP细节不做赘述,可以参考博主以前的博文:大规模图文预训练模型:CLIP,DALL-ECLIPBERT来自CVPR2021。作者的motivation来自于,目前大部分预训练模型都使用提前提取好的特征提取器,然而1)固定的特征对于不同的下游任务来说不是最优的,且不同的模态的特征相互独立。2)密集的视频特征的计算量要求较高,以原视频作为输入太慢了,因此特征提取器很难参与原创 2022-02-13 22:58:38 · 7811 阅读 · 1 评论 -
多模态预训练中的Prompt(ALPRO,Frozen)
继续整理几篇多模态的Prompt文章。Align and Prompt: Video-and-Language Pre-training with Entity Prompts尽原创 2022-02-13 22:53:39 · 6590 阅读 · 2 评论 -
Various Image/Video Caption(视觉字幕化新任务)
上一篇博文博主整理了最新的 Video Caption(跨模态视频摘要/字幕生成),但是我在翻文章的时候发现大家都不止满足于做普通的caption了,开始转于做各种稀奇古怪但又有一定实践价值的新任务,比如程序化caption、多样化caption、独特化caption、多视角caption、常识性caption、问题控制型caption。。。于是本篇文章,博主找了一些相关文章(主要基于ACM MM2021),来整理一下这些丰富的任务变体们。Hybrid Reasoning Network for Vid原创 2021-11-30 16:12:43 · 5688 阅读 · 0 评论 -
多模态信息用于推荐系统问题(MMDIN,hyperCTR)
继续续更之前的系列:多模态信息用于推荐系统问题(LOGO,MMGCN,MKGAT)。本期博文主要整理一下2021有意思的几篇文章。[CIKM2021] MultiHead MultiModal Deep Interest Recommendation Network首先是来自CIKM2021的文章,基于DIN模型的多模态信息优化。有关DIN模型不做赘述,传送门:注意力机制用于推荐系统问题(DIN,DIEN,BERT4Rec,PRM)。其主要是一种基于Attention的模型。本篇文章的作者认为现有的推荐原创 2021-11-25 23:11:31 · 3480 阅读 · 0 评论 -
多模态预训练中的Prompt(MAnTiS,ActionCLIP,CPT,CoOp)
上一篇博文整理了预训练新范式(Prompt-tuning,Prefix-tuning,P-tuning),主要是围绕NLP上的成果,具体的概念本文也不做过多赘述。本篇文章将主要整理几篇有代表性的Prompt方法在多模态领域中的应用。Multimodal Conditionality for Natural Language GenerationPrompt用于Natural Language Generation多模态NLG任务。先从NLG任务过渡到Vision-language的应用吧,这篇文章主原创 2021-10-31 15:58:49 · 5578 阅读 · 0 评论 -
GPT plus money (OpenAI CLIP,DALL-E)
OpenAI 同时发布了两个连接文本与图像的神经网络,DALL·E 可以基于文本直接生成图像,CLIP 能够完成图像与文本类别的匹配。CLIP输入图片,输出文本描述。正因为是描述,所以可以在各种图像分类任务上进行zero-shot。模型架构分为两部分,图像编码器和文本编码器,图像编码器可以是比如 resnet50,然后文本编码器可以是 transformer。训练数据是网络社交媒体上搜集的图像文本对。在训练阶段,对于一个batch 的数据,首先通过文本编码器和图像编码器,得到文本和图像的特征,接着原创 2021-05-17 11:04:25 · 3431 阅读 · 1 评论 -
Unsupervised Learning(图像和文本上的无监督学习和数据增强)
Momentum Contrast for Visual Representation Learning。Kaiming大神的文章还是需要细细琢磨的。先简单回顾一下Unsupervised Learning。Unsupervised Learning虽然身处数据时代, 每个人都无时无刻不在产生着数据,但是能用的数据实际上是很少的,而且而且现在大量的数据都是没有标注的。目前性能最好的当然是监督学习,但它的表现是完全靠大规模标注数据集+多GPU/TPU的算力支撑的,对于数据集的收集和人工标注需耗费大量的人.原创 2020-07-12 18:41:19 · 2971 阅读 · 5 评论 -
Domain Adaptation(领域自适应,MMD,DANN)
Domain Adaptation现有深度学习模型都不具有普适性,即在某个数据集上训练的结果只能在某个领域中有效,而很难迁移到其他的场景中,因此出现了迁移学习这一领域。其目标就是将原数据域(源域,source domain)尽可能好的迁移到目标域(target domain),Domain Adaptation任务中往往源域和目标域属于同一类任务,即源于为训练样本域(有标签),目标域为测集域,其测试集域无标签或只有少量标签,但是分布不同或数据差异大,具体根据这两点可以划分为:homogeneous .原创 2020-12-26 17:03:22 · 33573 阅读 · 11 评论 -
Cross-modal Pretraining in BERT(跨模态预训练)
BERT以及BERT后时代在NLP各项任务上都是强势刷榜,多模态领域也不遑多让…仅在2019 年就有8+篇的跨模态预训练的论文挂到了arxiv上…上图是多篇跨模态论文中比较稍迟的VL-BERT论文中的比较图,就按这个表格的分类(Architecture)整理这几篇论文吧。所有的论文都是基于BERT做改装或者暴力组合的,如果按Architecture可以分为one single和two sing...原创 2020-03-29 13:50:42 · 10463 阅读 · 7 评论 -
Multimodal Fusion(多模态融合)
Jeff Dean:我认为,2020年在多任务学习和多模态学习方面会有很大进展,解决更多的问题。我觉得那会很有趣。多模态融合 (Multimodal Fusion)一般来说,每一种信息的来源或者形式,都可以称为一种模态(Modality),目前研究领域中主要是对图像,文本,语音三种模态的处理。之所以要对模态进行融合,是因为不同模态的表现方式不一样,看待事物的角度也会不一样,所以存在一些交叉(所...原创 2020-03-28 19:44:15 · 167007 阅读 · 72 评论 -
Video Understanding(视频理解,I3D,SlowFast,Non-local)
CV领域图像已经登天很难短时间玩不出大花样大结构了(希望能早日打脸),大家开始打往视频上面靠的主意。由于早期限制于数据集和计算设备,多是从图像的2D模型直接转换成3D版本,如SIFT 3D,3D HOG,或者Dense Trajectory这种统治了很久的模型等,等到深度学习开始步入新的周期,数据集也开始扩增出现UCF101,ActivityNet,Charades,YouTube8M,Kine...原创 2020-03-18 21:25:12 · 7901 阅读 · 0 评论 -
Diversified Retrieval(多样性检索,MMR,DPP,VMIG)
多模态和跨模态的文章博主在之前的都整理过了,最近对多样性比较感兴趣,但是发现做这个方向的人确实太少了(虽然在推荐里面做的人还是挺多的)。暂时把目前看到觉得还不错的文章整理一下。Diversity在推荐系统的目标主要是Exploitation 和 Exploration。每一模块如上图,多样性在用户体验中还是十分重要的部分。其中的多样性可分为:个体多样性:从单个用户的角度来衡量的推荐系统多样性,主要考察系统能够找到用户喜欢的冷门项目的能力。(衡量方法仍然是item之间)总体多样性:主要强调对不同用原创 2020-11-15 19:40:43 · 5655 阅读 · 0 评论 -
Cross-modal Video Moment Retrieval(跨模态视频时刻检索综述)
这个方向的出的文章已经有很多了,但是似乎还没有一个统一一点的名字,叫 时域语言定位(Temporally Language Grounding),或者跨模态视频时刻检索/定位(Cross-modal Video Moment Retrieval/Localization)等等都有。大概给一个定义就是:给定一句自然语言描述的查询语句query,在未剪裁的完整视频中确定该描述发生的时间片段(起始时间,终止时间),简单来讲如上图,就是用一段文字查询具体的视频片段。它与纯的动作定位任务不同之处在于多了跨模态(文.原创 2020-07-13 17:54:21 · 14279 阅读 · 18 评论 -
Cross-modal Retrieval(跨模态检索)
前一篇文章整理了多模态融合Multimodal Fusion,最近看到一篇很好的跨模态检索的文章,这篇博客就来整理几篇博主认为idea还不错的跨模态检索。另,如果有其他idea很好的跨模态论文,希望你在文章后面留言!Cross-modal Retrieval一般一个跨模态检索过程可以既包括模态表征,模态转换,模态对齐和联合学习(唯独没有模态融合,基本上不需要融合)。Adversarial ...原创 2020-05-03 20:55:32 · 23915 阅读 · 14 评论 -
Scene Graph(视觉关系场景图检测)
Scene GraphNeural Motifs: Scene Graph Parsing with Global Context开山经典之作。motif指场景图中重复出现的子结构。引入relation priors(主语和宾语确定,relation很容易确定,并且类似的motif会大量出现)后,直接通过统计的方法,不需要图片信息就能得到较高的准确率。文中的方法先将图片做proposal...原创 2020-05-02 20:58:16 · 15460 阅读 · 1 评论 -
Video Caption(跨模态视频摘要/字幕生成)
Video Caption视频摘要/视频字母生成属于多模态学习下的一个子任务,大体目标就是根据视频内容给出一句文字描述。所生成的caption可用于后续的视频检索等等,也可以直接帮助智能体或者有视觉障碍的人理解现实情况。典型的架构如上图(图自[ICCV2015] Sequence to Sequence – Video to Text,从视频帧到文本句子的端对端模型),该任务可以分解为两个子任务,一个是如何理解视频/多模态,并融合以得到更好的视觉表示,另一个是视频描述生成,如何得到质量高,甚至可控、稳.原创 2021-03-13 21:38:31 · 14426 阅读 · 4 评论 -
Multi-Label Image Classification(多标签图像分类)
Multi-Label Classification首先分清一下multiclass和multilabel:多类分类(Multiclass classification): 表示分类任务中有多个类别, 且假设每个样本都被设置了一个且仅有一个标签。比如从100个分类中击中一个。多标签分类(Multilabel classification): 给每个样本一系列的目标标签,即表示的是样本各属性而不是相互排斥的。比如图片中有很多的概念如天空海洋人等等,需要预测出一个概念集合。Challenge多标签原创 2021-03-13 18:35:13 · 26649 阅读 · 5 评论 -
Zero-Shot Image Retrieval(零样本跨模态检索)
上一篇博文简要整理了元学习和少样本学习,本篇文章重点整理几篇利用零样本学习做检索的文章。该问题的难度在于使用人类草图被用作查询以从不可见的类别中检索照片:草图和图片的跨模态域差异大。sketch只有物体的轮廓,与image相比只有很少的信息。由于不同人的绘画风格不一样,sketch的类内方差也很大。怎么适应大规模检索,适应从Unseen中检索出图片。A Zero-Shot Framework for Sketch Based Image Retrieval来自ECCV2018。主要是思想是利原创 2021-02-07 11:48:32 · 5054 阅读 · 4 评论 -
多模态信息用于推荐系统问题(LOGO,MMGCN,MKGAT)
推荐已经成为许多在线内容共享服务的核心组成部分,从图像、博客公众号、音乐推荐、短视频推荐等等。与传统推荐不一样的地方,就是这些项目内容包含着丰富的多媒体信息-帧、音轨和描述,涉及多种形式的视觉、声学和文本信息。那么如此丰富的多媒体,多模态信息如何融合到推荐中呢?最普通也是最直接的方式可能就是对多模态抽特征,然后多模态融合直接作为side Information或者item的representation之后参与到推荐中的,这种暂时不整理吧,本篇博文主要整理两篇整合多模态信息到表示中的文章,不过一篇涉及到了G原创 2020-12-28 22:21:35 · 10514 阅读 · 20 评论 -
Ad-hoc Video Search(AVS跨模态视频检索)
AVS任务也是跨模态检索中的一种,即对于给定的句子,尝试在视频库中检索出语义相关的内容。而跨模态相关的文章,博主已经在其他跨模态检索的文章中介绍过了。Ad-hoc和传统的视频检索任务不太一样,如它的名字ad-hoc一样,这其实属于推荐中的两者形态:ad hoc。类似于书籍检索。数据相对稳定不变,而查询千变万化。routing。类型与新闻推荐。用户兴趣稳定不变,但数据不断变化。一般的跨模态会有预定义语义标签,而AVS任务只能通过建模用户的 查询意图, 所以某种程度上它的难度更偏向于相似度匹配问题。原创 2020-11-15 20:23:34 · 3413 阅读 · 0 评论