
多模态大模型到底理不理解文档图表?兼谈RAG如何解决全局摘要问答类问题
这其实也很自然,因为图片本身就是对语言的一种补充,图中所呈现的信息,通常都会有别处用文本进行了阐述,而多模态大模型M通常由一个vision encoder,一个语言模型,以及一个视觉-语言连接件组成,现有的多模态benchmark中有大量的评估样本是从单模态的文本语料中转化过来,因此,大语言模型的训练数据中无意间泄露了多模态benchmark中转化不充分的评估样本,所以自然会出现这种情况。至此,在前一步骤中创建的索引可以建模为无向加权图,其中实体节点通过关系边连接,边权重表示检测到的关系实例的归一化计数。




