多模态大模型到底理不理解文档图表?兼谈RAG如何解决全局摘要问答类问题

今天我们来谈谈2个问题,一个是RAG如何应用于全局摘要问答类问题,另一个是最近所关注的图表理解问题,尤其是图表信息抽取,引发了关于大模型是否真正理解图表的疑问,大家可以看看。

问题1:RAG如何应用于全局摘要问答类问题

我们先来看一类问题,RAG无法回答针对整个文本语料库的全局性问题,例如"数据集中的主要主题是什么?",因为这本质上是一个以查询为重点的摘要(QFS)任务,而不是一个明确的检索任务。

很自然的,这类问题,我们实现做多个聚类,然后建立索引,最后根据query,找到对应的若干个聚类文本,最终再做summary合并即可。

因此,这就涉及到聚类的实现以及类簇的选择两个问题。

《From Local to Global: A Graph RAG Approach to Query-Focused Summarization》(https://arxiv.org/pdf/2404.16130) 这个工作给出了一个思路。使用大型语言模型(LLM)构建了一个基于图的文本索引,从源文件生成实体知识图,然后为所有相关实体组生成摘要。给定一个问题,每个摘要用于生成部分回答,然后所有部分回答再次总结为最终答案。

其核心在于,使用LLM分两个阶段建立基于图Graph的文本索引及查询回复:

在index time阶段,首先从源文档中导出实体知识图,然后为所有密切相关的实体组预先生成社区摘要,也就是图中的从source Documents到切分为额Text Chunks,再处理成元素摘要,为啥用图,这个图作为语义内容组织的锚&#

  • 13
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值