关于Document,Multimodal,RAG最新的进展
一:PDFTriage
题目: PDFTriage: Question Answering over Long, Structured Documents
机构:斯坦福大学,Adobe Research
论文: https://arxiv.org/pdf/2309.08872.pdf
任务: 结构化文档QA
Motivation:解决ChatGPT等大语言模型在处理长篇、结构复杂的文档(如PDF、网页、演示文稿等)回答不准的问题,之前的方法会存在如下的一些问题:
- 上下文窗口限制,一次只能处理有限tokens数目,因此需要先进行文档预处理以及分割;
- 文档结构化信息利用不足,比如页面,标题,表格等;查询不准确;信息获取不全;
方法:PDFTriage通过允许模型基于结构或内容检索上下文来缓解上述问题。它首先将PDF转化为结构化文档元数据,为模型提供了关于文档结构的信息,然后通过使用一系列基于模型的可调用检索