
多模态大模型
文章平均质量分 95
FesianXu
腾讯-微信事业群-高级算法工程师, 百度-搜索策略部-前高级算法工程师。 主要从事多模态检索、视频检索、信息检索,大模型落地应用等领域工作。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
视觉大语言模型未能充分利用视觉表征
视觉大语言模型存在视觉表征利用率不足问题。研究表明,在视觉为中心任务(如语义匹配、深度估计等)中,VLM性能显著低于仅使用视觉特征的评估结果,接近随机猜测水平。通过实验分析发现,视觉信息在VLM处理过程中并未明显衰减,但底座LLM对视觉特征的利用能力成为主要瓶颈。微调LLM层可提升对关键视觉区域的注意力,但仍无法达到纯视觉特征的效果。该研究揭示了VLM架构中LLM模块对视觉信息处理的局限性,而非之前普遍认为的视觉编码器缺陷。原创 2025-06-19 12:57:50 · 946 阅读 · 0 评论 -
解耦多模态大模型中的视觉语义压缩与视觉语义摘要
在多模态大模型中,视觉连接器大致可以分为压缩型和非圧缩型,其中BLIP2提出的Q-Former [1] 是压缩型视觉连接器的代表工作之一。在论文 [2] 中,作者对Q-Former的作用提出了质疑和分析,本文进行笔记,希望对读者有所帮助。原创 2024-11-06 00:48:25 · 926 阅读 · 0 评论 -
Alignment与Correspondence,用于量化衡量MLLM中视觉特征的视觉语义对齐与视觉结构程度的方法
在多模态大模型(Multimodal Large Language Model, MLLM)中,视觉特征就像是人的眼睛,而底座的LLM则像是人的大脑,合适的视觉特征的选择通常都是一个MLLM成功的重要一步。本文介绍一种可以用于高效选择合适的视觉特征的方法,如有谬误请见谅并联系指出,本文遵守。关键字:高效的MLLM视觉特征选择、定量衡量视觉语义对齐、定量衡量视觉结构特征知乎专栏:计算机视觉/计算机图形理论与应用微信公众号:机器学习杂货铺3号店视觉编码器,可以是CLIP、SigLIP、DINO等。原创 2024-10-06 15:19:53 · 1455 阅读 · 1 评论