GraphRAG新增文件会重新索引所有文件吗？探究缓存何时生效_graphrag 对input里的文件会重复索引吗-CSDN博客

本文链接：https://blog.csdn.net/Python_cocola/article/details/142343207

GraphRAG索引消耗Token巨大，所以你可能会问？新增文件后，我之前的文件会不会重新索引一次啊？什么情况下会利用缓存呢？本文带你一探究竟。

GraphRAG默认使用文件缓存，配置如下。当然你也可以考虑使用Azure云端的缓存。

cache:     type: file # or blob     base_dir: "cache"     # connection_string: <azure_blob_storage_connection_string>     # container_name: <azure_blob_storage_container_name>

缓存放在cache目录下，并根据流程分为实体提取、总结描述、社区报告和文本嵌入四个部分，所以缓存基本涵盖了所有涉及LLM调用或者Embedding调用的部分。
在这里插入图片描述

缓存的文件名类似 chat-0a0edbed8a583fd6ef2647112f565bd9 create_community_report-chat-v2-0a8d6dcd76f6d92edb9388681da40d1d，tag和hash值组合而成。缓存的内容是什么呢？其实就LLM的请求输入和响应输出，或者是embedding API的调用回复。

{       "result": "(\"entity\"<|>\"Retrieval-Augmented Generation\"<|>\"technique\"<|>...<|COMPLETE|>",       "input": "-Goal-\nGiven a text document ...",       "parameters": {           "model": "deepseek-chat",           "temperature": 0,           "frequency_penalty": 0,           "presence_penalty": 0,           "top_p": 0.99,           "max_tokens": 4096,           "n": 1       }   }

那么何时缓存会生效？修改哪些部分会影响缓存呢？让我们看GraphRAG中如下代码，它是为缓存文件生成文件名，也就是上文看到文件名。

def create_hash_key(operation: str, prompt: str, parameters: dict) -> str:       """Compute cache key from prompt and associated model and settings.          Args:           prompt (str): The prompt run through the language model.           llm_string (str): The language model version and settings.          Returns       -------           str: The cache key.       """       llm_string = _llm_string(parameters)       return f"{operation}-{_hash(prompt + llm_string)}"

从这份代码上，我们能够了解到，有两个影响hash值的生成

输入的Prompt，包含用户输入
LLM的参数

这是实际运行过程中打印的参数

tag: chat   llm_string: {'model': 'llama3-70b-8192', 'temperature': 0.0, 'frequency_penalty': 0.0, 'presence_penalty': 0.0, 'top_p': 0.99, 'max_tokens': 2000, 'n': 1}   [('frequency_penalty', 0.0), ('max_tokens', 2000), ('model', 'llama3-70b-8192'), ('n', 1), ('presence_penalty', 0.0), ('temperature', 0.0), ('top_p', 0.99)]

所以当你

换一个LLM，或者修改LLM的参数，都会导致重新索引
加入新的文件，只会索引该文件，已经索引的文件不会重新索引。
修改现有文件，可能导致整个文件重新索引，或者是部分，因为修改文件，如果只是部分chunk改变，那么只会是这部分chunk需要重新索引。

因此，如果你的单个文档较大，并且可能会经常修改，可以考虑将其拆分，以充分利用缓存，节省你的Money。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述