一篇论文分享,以多模态的形式来做RAG的研究

这篇论文,给我很强的割裂感和冲击感。非常值得阅读。我是做RAG相关研究工作的 ,过去一年在做传统的RAG,就是标准的文档解析,chunk,召回,排序,模型生成答案这条路。深谙RAG的复杂,中间要优化的环节太多了。中间要翻的大山太多了,其中文档解析,文件理解,再到去定义M+1个召回策略,很复杂。这篇论文直击痛点,让我觉得很哇塞。

这篇论文给很大的冲击感,颠覆了传统的路线,让我觉得如沐春风。论文提出使用依靠多模态模型,来做RAG,这样只需要使用文档的截图就可以了。这个思路的提出,直接省去传统RAG的很多个中间处理环节。

https://arxiv.org/pdf/2407.01449v2

解决的核心问题

 这篇论文介绍了一种名为ColPali的新型文档检索模型,它利用最新的视觉语言模型(Vision Language Models,简称VLMs)来从文档页面的图像中生成高质量的上下文嵌入(contextualized embeddings)。ColPali结合了一种称为“late interaction”的匹配机制,显著提高了检索性能,并且具有更快的处理速度和端到端的训练能力。

 

利用视觉语言模型,来解决传统RAG的痛点问题:RAG的链路太长了,中间的环节特别多,光是在文档解析上就要花费非常多精力,来做文件理解的内容。中间每个环节损失百分之十,最终可能就只剩下 0.9 * 0.9* .. (n-1)*0.9 。损失是叠加的,这是非常恐怖的,所以对每个 环节的要求都极高。这很困难,也很痛苦。

此外,传统RAG主要关注文本内容,而忽略了文档的视觉元素,这在需要同时理解文本和视觉信息的场景中(如检索增强生成RAG)导致性能受限。现代文档检索系统在文本匹配方面表现出色,但它们在有效利用文档的视觉线索(如表格、图形、页面布局或字体)方面存在不足,这限制了它们在实际文档检索应用中的性能。表格的处理,图像的处理,都是需要额外的精力。

这条路如果真的可行,那真的对RAG从业者来说,是一个福音。

泼个凉水

这个论文的确给我们提供了一条新的路线。但是它还不成熟。我想我们已经在传统的RAG上已经做了那么多的雕花的工作,新的思路一时还无法替代。学术界的东西在工业界落地,可能还需要很长的时间。

在这个思路上,想要去提升效果,只有一条路可以走,那就是训练模型。无法通过策略来做提升。

主要贡献如下

  1. ViDoRe基准测试:提供了测试数据集。作者创建并公开发布了一个名为ViDoRe(Visual Document Retrieval Benchmark)的全面基准测试,用于评估系统在页面级别文档检索上的性能。这个基准测试覆盖了多个领域、视觉元素和语言。

  2. ColPali模型架构:提出了一种基于视觉语言模型的新模型架构和训练策略,可以直接从文档的视觉特征中高效地索引文档,允许后续使用late interaction机制进行快速查询匹配。

  3. 性能评估:ColPali在ViDoRe基准测试中的性能超过了现有的所有文档检索系统,同时保持了查询的低延迟和索引的高吞吐量。

  4. 资源发布:作者公开了所有项目工件,包括模型和代码,以促进进一步的开发和研究。

ViDoRe基准测试

已有的测试数据集,有的只是测视觉的,有的只是测文本召回的。测试侧重于各种模式-文本、图形、信息图形、表格。涉及的领域主要是医学、商业、科学、行政。覆盖的语言主要是英语和法语

评估结果展示

论文中结果展示,这种方式取得了非常好效果。但是我还是有点质疑,根据我们的生产经验,向量的相关性会比BM25好一些,但是这个结果里边并不是,这让我不得不怀疑专业性。

  • 7
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值