多模态信息模型
文章平均质量分 94
FesianXu
腾讯-微信事业群-高级算法工程师, 百度-搜索策略部-前高级算法工程师。 主要从事多模态检索、视频检索、信息检索,大模型落地应用等领域工作。
展开
-
SigLIP——采用sigmoid损失的图文预训练方式
CLIP中的infoNCE损失是一种对比性损失,在SigLIP这个工作中,作者提出采用非对比性的sigmoid损失,能够更高效地进行图文预训练原创 2024-09-08 22:24:03 · 2057 阅读 · 0 评论 -
LexLIP——图片搜索中的多模态稀疏化召回方法
最近笔者在回顾&笔记一些老论文,准备整理下之前看的一篇论文LexLIP,其很适合在真实的图片搜索业务场景中落地,希望笔记能给读者带来启发。原创 2024-07-28 18:58:51 · 1039 阅读 · 0 评论 -
基于CLIP特征的多模态大模型中的视觉短板问题
如今的大多数多模态大模型,其视觉输入侧采用的视觉编码器,都是依照CLIP的训练方式,采用大规模对比学习进行训练的。在论文 [1] 中,作者发现CLIP特征具有某些视觉短板,从而导致基于此的MLLM也受到了影响。作者观察到,在一些简单直接(不需要复杂推理)的问题上,MLLM似乎并不能很好解决...原创 2024-07-06 18:17:05 · 1016 阅读 · 1 评论 -
万字浅析视频搜索系统中的多模态能力建设
视频搜索是天然的富媒体检索场景,视觉信息占据了视频的一大部分信息量,在视频搜索系统中引入多模态能力,对于提高整个系统的能力天花板至关重要。本文将对在视频搜索系统中落地多模态能力(特别是视觉)进行讨论,同时为了让部分无相关背景的读者补充一些背景知识...原创 2024-06-30 21:35:16 · 2204 阅读 · 0 评论 -
【论文极速读】 LLava: 指令跟随的多模态大语言模型
如何将已预训练好的大规模语言模型(LLM)和多模态模型(如CLIP)进行融合,形成一个多模态大语言模型(MLLM)是目前很火热的研究课题。本文将要介绍的LLava是一个经典的工作,其采用了指令微调的方式对MLLM进行训练,笔者在此笔记,希望对诸位读者有所帮助。原创 2024-05-19 23:05:34 · 1841 阅读 · 0 评论 -
【论文极速读】 指令微调BLIP:一种对指令微调敏感的Q-Former设计
之前笔者在[1]中曾经介绍过BLIP2,其采用Q-Former的方式融合了多模态视觉信息和LLM,本文作者想要简单介绍一个在BLIP2的基础上进一步加强了图文指令微调能力的工作——InstructBLIP,希望对诸位读者有所帮助。原创 2024-03-31 20:57:32 · 1149 阅读 · 0 评论 -
Kosmos-1: 通用接口架构下的多模态大语言模型
kosmos 构建一个通用接口的多模态大语言模型原创 2024-03-03 11:23:06 · 1270 阅读 · 0 评论 -
【论文极速读】MetaLM:一种融合因果语言模型和非因果语言模型的方法
最近我在恶补一些经典的LLM工作,之前也精读过MetaLM这个工作但是没有及时笔记,现在已经有些遗忘了,因此在过年期间复习了下,在此笔记希望对诸位有所帮助。原创 2024-02-19 19:39:42 · 1007 阅读 · 0 评论 -
【论文极速读】Flamingo:一种交织图文的视觉语言大模型方法
Flamingo算是DeepMind的多模态融合LLM的一个较老的工作了(2022年),之前粗略读过没来得及及时总结,本次过年笔者重新细读了论文,发现其在50多页的论文中有着不少细节,本文对该工作进行读后感笔记。原创 2024-02-17 16:59:53 · 4280 阅读 · 1 评论 -
BLIP2——采用Q-Former融合视觉语义与LLM能力的方法
大规模语言模型(Large Language Model,LLM)是当前的当红炸子鸡,展现出了强大的逻辑推理,语义理解能力,而视觉作为人类最为主要的感知世界的手段,亟待和LLM进行融合,形成多模态大规模语言模型(Multimodal LLM, MLLM),BLIP-2这篇文章利用已经充分训练好的图片编码器和LLM模型,通过Q-Former巧妙地融合在一起,在引入少量待学习参数的同时,取得了显著的效果。本文将对BLIP2进行笔记和笔者个人感想纪录,希望对诸位读者有所帮助。原创 2024-02-03 18:45:31 · 2695 阅读 · 1 评论 -
【论文极速读】视频检索中的模态均衡方法
多模态落地过程中的模态不均衡问题原创 2023-12-07 13:10:57 · 313 阅读 · 0 评论 -
【论文极速读】EMT——评估多模态LLM中的灾难性遗忘问题
评估多模态LLM模型的灾难性遗忘现象原创 2023-10-07 20:39:56 · 649 阅读 · 0 评论 -
【论文极速读】IMAGEBIND —— 通过图片作为桥梁桥联多模态语义
image bind,充分利用多模态异构数据~原创 2023-09-30 10:52:18 · 709 阅读 · 0 评论 -
【论文极速读】VQ-VAE:一种稀疏表征学习方法
VQ-VAE进行视觉稀疏化原创 2023-02-26 10:57:58 · 917 阅读 · 0 评论 -
【论文极速读】ERNIE VIL 2.0,多模态模型的一种多视角预训练范式
ERNIE VIL 2.0 多视角多模态的预训练方法原创 2022-12-03 13:23:15 · 415 阅读 · 0 评论 -
【论文极速读】FILIP: 一种基于交互的细粒度图文预训练模型
FILIP,基于交互的细粒度图文匹配模型原创 2022-10-16 01:47:34 · 1448 阅读 · 0 评论 -
在多模态模型训练时,如何合适地融合单模态损失
多模态训练时候导致的单模态缺损,需要同时考虑单模态损失原创 2022-04-21 10:27:47 · 4151 阅读 · 1 评论 -
【论文极速看】CLIP-Lite:一种不依赖于负样本数量的高效多模态学习方法
JS散度用于互信息下界估计原创 2022-02-07 21:59:45 · 648 阅读 · 0 评论 -
图文多模态语义融合前的语义对齐——一种单双混合塔多模态模型
图文多模态语义融合前的语义对齐——一种单双混合塔多模态模型 FesianXu 20220127 at Baidu Search Team前言之前在博文[2-4]中介绍了一些图文多模态语义对齐相关的模型,分别是WenLan 1.0, WenLan 2.0和CLIP等,这些模型都是双塔结构模型,然而在实际的应用场景中,我们会有使用单塔模型的需求,笔者在本文将介绍一篇论文[1]的思路,将单塔模型和双塔模型结合在一起进行图文多模态语义融合和对齐。如有谬误请联系指出,本文遵循 CC 4.0 BY-...原创 2022-01-28 19:36:37 · 6630 阅读 · 0 评论 -
WenLan 2.0:一种不依赖Object Detection的大规模图文匹配预训练模型 & 数据+算力=大力出奇迹
WenLan 2.0的方法介绍和个人理解原创 2021-12-03 15:23:27 · 3665 阅读 · 0 评论 -
【论文极速读】MoCo v3: MoCo机制下Transformer模型的训练不稳定现象
【论文极速读】MoCo v3: MoCo机制下Transformer模型的训练不稳定现象 FesianXu 20211015 at Baidu search team前言之前笔者在[1]中介绍过MoCo v1模型通过解耦batch size和负样本队列大小,从而实现超大负样本队列的对比学习训练方案;在[2]中我们提到了当前对比学习训练中提高负样本数量的一些方法;在[3]中提到了将MoCo扩展到多模态检索中的方案。在本文,我们介绍下MoCo v3,一种尝试在Transformer模型中引入...原创 2021-11-03 20:47:16 · 1626 阅读 · 0 评论 -
图文搜索系统中的多模态模型:将MoCo应用在多模态对比学习上
图文搜索系统中的多模态模型:将MoCo应用在多模态对比学习上 FesianXu 20210917 at Baidu Search Team前言之前我们在[1]中介绍过超大负样本对于对比学习训练的重要意义,并且在[2,3]中介绍了MoCo,Memory Bank等方法去突破硬件限制地去进一步增大负样本数量。然而,之前这些方法都尝试在单模态数据上进行对比学习[4],在文章[5]中,作者团队提出了WenLan项目,尝试在多模态模型中采用MoCo的形式进行大尺度负样本对比学习。本文是对WenLa...原创 2021-09-18 11:36:01 · 1954 阅读 · 1 评论 -
Batch Norm层在大尺度对比学习中的过拟合现象及其统计参数信息泄露问题
Batch Norm层在大尺度对比学习中的过拟合现象及其统计参数信息泄露问题 FesianXu 20210830 at Baidu Search Team前言在之前的博文[1,2]中已经说明了在对比学习中提高batch size的巨大作用,然而在大尺度对比学习的训练过程中,被广泛实践证明有效的Batch Norm层则很容易出现过拟合的现象。笔者在本文对该现象进行笔记,并且纪录其解决方案。如有谬误请联系指出,本文遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声...原创 2021-09-01 14:38:22 · 1170 阅读 · 5 评论 -
Transformer的mask id两三事
Transformer的mask id两三事 FesianXu 20210808 at Baidu Search Team前言在Transformer中有着诸多的id,比如token id,position id,segment id,mask id等等,本文简单纪录下笔者在使用mask id时候的一些问题。如有谬误请联系指出,本文遵守 CC 4.0 BY-SA 版权协议,转载请联系作者并注明出处,谢谢。∇\nabla∇ 联系方式:e-mail: FesianXu@gmail...原创 2021-08-09 09:16:43 · 910 阅读 · 0 评论 -
CLIP-对比图文多模态预训练的读后感
CLIP-对比图文多模态预训练的读后感 FesianXu 20210724 at Baidu Search Team前言CLIP是近年来在多模态方面的经典之作,其用大量的数据和算力对模型进行预训练,使得模型的zero-shot性能甚至可以匹敌众多数据集上的监督SOTA,实在让人惊叹不已,本文简要纪录下笔者阅读该文后的读后感以及一些启发。如有谬误请联系指出,本文遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明并且联系笔者,谢谢。∇\nabla∇ 联系方式:...原创 2021-08-08 16:49:31 · 5944 阅读 · 0 评论 -
MoCo 动量对比学习——一种维护超大负样本训练的框架
MoCo 动量对比学习——一种维护超大负样本训练的框架FesianXu 20210803 at Baidu Search Team前言在拥有着海量数据的大型互联网公司中,对比学习变得逐渐流行起来,大家都拿它进行表征学习的探索。本文对MoCo这篇论文进行笔记,希望对读者有所帮助。如有谬误请联系指出,本文遵守 CC 4.0 BY-SA 版权协议,转载请联系作者并注明出处,谢谢。∇\nabla∇ 联系方式:e-mail: FesianXu@gmail.comgithub: https://.原创 2021-08-08 15:25:34 · 2607 阅读 · 0 评论 -
视频分析与多模态融合之一,为什么需要多模态融合
视频分析与多模态融合之一,为什么需要多模态融合 FesianXu 20210130 at Baidu search team前言在前文《万字长文漫谈视频理解》[1]中,笔者曾经对视频理解中常用的一些技术进行了简单介绍,然而限于篇幅,意犹未尽。在实习工作中,笔者进一步接触了更多视频分析在视频搜索中的一些应用,深感之前对视频分析在业界中应用的理解过于狭隘。本文作为笔者对前文的一个补充,进一步讨论一下视频分析以及其在搜索推荐系统中的一些应用。本文是该系列的第一篇,主要介绍了通用的视频图...原创 2021-06-26 23:35:32 · 2526 阅读 · 1 评论 -
从零开始的搜索系统学习笔记
从零开始的搜索系统学习笔记 FesianXu 20210307 at Baidu search team前言笔者在百度实习的过程中,从零开始开始学习了一些关于信息搜索系统的知识,觉得受益匪浅,在此笔记,希望对读者有所帮助。本文只是科普向,如有谬误请联系指出,本文遵守 CC 4.0 BY-SA 版权协议,转载请联系作者并注明出处,谢谢。∇\nabla∇ 联系方式:e-mail: FesianXu@gmail.comgithub: https://github.com/Fes...原创 2021-05-03 15:24:08 · 1381 阅读 · 2 评论 -
【论文极速看】ERNIE-VIL 一种基于场景图解析的多模态表征方法
∇ 联系方式:e-mail: FesianXu@gmail.comgithub: https://github.com/FesianXu知乎专栏: 计算机视觉/计算机图形理论与应用微信公众号:ERNIE [1,2,3]是百度提出用于对文本进行建模的模型,为了对图文信息进行多模态建模,百度在后续还提出了ERNIE-VIL模型[4]。ERNIE-VIL模型的建模思路很直接,作者认为图片信息主要由以下几种类型,如Fig 1所示。分别是图片中有哪些物体(Objects), 图片的物体有哪些属性(Att原创 2021-04-29 20:22:33 · 991 阅读 · 1 评论 -
【论文极速看】 Linformer 线性复杂性的自注意力机制
∇ 联系方式:e-mail: FesianXu@gmail.comgithub: https://github.com/FesianXu知乎专栏: 计算机视觉/计算机图形理论与应用微信公众号:在Transformer [1]中作者提出了用自注意力取代CNN,RNN在序列建模中的作用,并且取得了显著的实验效果,对整个NLP,CV领域有着深远影响。然而自注意力机制的时间复杂度是O(n2)\mathcal{O}(n^2)O(n2)的,如式子(1)所示Attention(QWQ,KWK,VWV原创 2021-04-28 21:04:19 · 2093 阅读 · 0 评论 -
Transformer代码随记
Transformer代码随记 FesianXu 20210423 at Baidu search team前言最近在百度搞多模态搜索,Transformer [1]相关的模型用的多些,记录下Transformer阅读代码过程中的一些笔记,希望对大家有帮助。如有谬误请联系指出,本文遵守 CC 4.0 BY-SA 版权协议,转载请联系作者并注明出处,谢谢。∇ 联系方式:e-mail: FesianXu@gmail.comgithub: https://github.com/Fesia...原创 2021-04-25 20:13:16 · 738 阅读 · 0 评论 -
将Transformer用在图片上:Vision Transformer论文杂谈
将Transformer用在图片上:Vision Transformer论文杂谈 FesianXu 20210422 at Baidu search team前言Transformer自提出以来在NLP领域取得了诸多突破,而自然而然有工作在考虑如何在图片等视觉媒体上应用Transformer,本文介绍Vision Transformer (ViT)模型,并且作为笔记记录了一些笔者的读后感。如有谬误请联系指出,本文遵守 CC 4.0 BY-SA 版权协议,转载请联系作者并注明出处,谢谢。...原创 2021-04-22 20:54:50 · 1771 阅读 · 0 评论 -
语义标签(Semantic label)与多模态模型的一些关系
语义标签(Semantic label)与多模态模型的一些关系 FesianXu 20210317 at Baidu intern前言语义标签指的是通过特殊方式使得样本的标签具有一定的语义信息,从而实现更好的泛化,是解开放集问题(open set)和zero-shot问题中的常见思路。如有谬误请联系指出,本文遵守 CC 4.0 BY-SA 版权协议,转载请联系作者并注明出处,谢谢。∇\nabla∇ 联系方式:e-mail: FesianXu@gmail.comgithub:...原创 2021-03-18 00:34:24 · 2069 阅读 · 0 评论