多模态大模型到底理不理解文档图表？兼谈RAG如何解决全局摘要问答类问题

最新推荐文章于 2024-07-19 22:46:50 发布

一切还来得及

最新推荐文章于 2024-07-19 22:46:50 发布

阅读量541

点赞数 13

文章标签：人工智能 AI RAG

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/javasoftdeveloper/article/details/138823709

版权

今天我们来谈谈2个问题，一个是RAG如何应用于全局摘要问答类问题，另一个是最近所关注的图表理解问题，尤其是图表信息抽取，引发了关于大模型是否真正理解图表的疑问，大家可以看看。

问题1：RAG如何应用于全局摘要问答类问题

我们先来看一类问题，RAG无法回答针对整个文本语料库的全局性问题，例如"数据集中的主要主题是什么？"，因为这本质上是一个以查询为重点的摘要（QFS）任务，而不是一个明确的检索任务。

很自然的，这类问题，我们实现做多个聚类，然后建立索引，最后根据query，找到对应的若干个聚类文本，最终再做summary合并即可。

因此，这就涉及到聚类的实现以及类簇的选择两个问题。

《From Local to Global: A Graph RAG Approach to Query-Focused Summarization》(https://arxiv.org/pdf/2404.16130) 这个工作给出了一个思路。使用大型语言模型(LLM)构建了一个基于图的文本索引，从源文件生成实体知识图，然后为所有相关实体组生成摘要。给定一个问题，每个摘要用于生成部分回答，然后所有部分回答再次总结为最终答案。

其核心在于，使用LLM分两个阶段建立基于图Graph的文本索引及查询回复：

在index time阶段，首先从源文档中导出实体知识图，然后为所有密切相关的实体组预先生成社区摘要，也就是图中的从source Documents到切分为额Text Chunks，再处理成元素摘要，为啥用图，这个图作为语义内容组织的锚&#

最低0.47元/天解锁文章

一切还来得及

关注

13
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
多模态大模型到底理不理解文档图表？兼谈RAG如何解决全局摘要问答类问题

这其实也很自然，因为图片本身就是对语言的一种补充，图中所呈现的信息，通常都会有别处用文本进行了阐述，而多模态大模型M通常由一个vision encoder，一个语言模型，以及一个视觉-语言连接件组成，现有的多模态benchmark中有大量的评估样本是从单模态的文本语料中转化过来，因此，大语言模型的训练数据中无意间泄露了多模态benchmark中转化不充分的评估样本，所以自然会出现这种情况。至此，在前一步骤中创建的索引可以建模为无向加权图，其中实体节点通过关系边连接，边权重表示检测到的关系实例的归一化计数。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。