对graphrag的论文进行阅读
1. 要解决的问题
普通(naive)RAG无法在涉及到全局或者多个页面的问题上得到很好的结果。
比如“这个数据集的主题是什么?”。一种方案是把整个数据集送入模型,那太大了。我寻思把多个搜索的结果放到RAG中就行呗。
2. 概念理解
Text chunks 把文档切分成几块
Element instances 元素实体,包括node(节点,或称entity),edge(边,或者称关系)
Community summaries 社区发现,把某些节点看成一个社区,一个村落。
3. 步骤
(1)文档切分成文本块
(2)文本块变成知识图谱,可以通过大模型得到一系列的三元组
(3)。。。。待看