从文档整理到提示词设计：6步打造企业级RAG系统全攻略

最新推荐文章于 2025-05-13 20:33:05 发布

小天才学习机打游戏

最新推荐文章于 2025-05-13 20:33:05 发布

阅读量864

点赞数 14

文章标签：人工智能数据库语言模型机器学习 eureka

本文链接：https://blog.csdn.net/m0_59164520/article/details/147904476

版权

一、知识库文档整理

知识库质量直接影响最终效果，因此起始阶段需明确包含文档类型，如政策原文、业务问答、操作指引等，并进行预处理。此阶段可从以下方面优化：

文档格式：PDF 与 DOCX 等格式识别难度不同，PDF 格式信息简洁，干扰小，效果通常较好，但具体仍需结合场景测试。

文档命名：控制在 10 字左右，确保简洁明了，避免无意义数字、符号或缩写。

文档语言：尽量统一，因 embedding 模型对不同语言支持有别，混合语言易导致乱码或无用数据。

文档内容：设置清晰一二级标题，对图片、表格等特殊内容进行特殊处理。

构建问答对：基于用户提问构建问答对可提升效果，但需考虑人力与运营成本。需注意，*知识库处理无固定公式，需依具体场景、需求及成本进行大量实践*。

二、知识库数据切分

文档整理完毕后，需上传构建本地知识库。入库时需将长文本切割为小块（chunk），优化方向如下：

优化内容提取：采用合适方法从文档提取内容，如从 PDF 提取可参考特定链接方法。

设置合理 chunk size：需考虑文档长度、embedding 模型最佳表现、用户提问及回答长度预期，综合确定分块策略。

文档段落处理：以 chunk size 拆分或合并段落，保证连贯语义不被切割。

手动切割分段：人工精确切割，确保数据完整性。

知识库文档标注：导入前对文档及切割后的 chunk 标注来源，提升召回准确性。

三、知识向量化

将知识库文档切割成 chunk 后，通过 embedding 技术转换为向量存入向量数据库，优化方向如下：

embedding 模型选择：不同模型对准确性影响大，不同场景适用模型不同，如 bge-large-zh 对中文支持较好。

向量库类型：LangChain Chatchat 框架默认 faiss，milvus 据说不错，但需验证。一般用 Top5 与 Top10 召回准确率评估模型优劣。

四、知识检索

用户提问后将其向量化，与向量数据库中 chunk 匹配出最相似的 topk 个，优化方向如下：

检索模型优化：将文本组织成二级索引，第一级为关键信息，第二级为原始文本，检索时仅对关键信息 embedding，提升匹配准确率。

k 值选择：依用户提问类型及对应文档片段区间，经测试确定最佳 k 值，k 值并非越大越好。

Temperature 参数设置：根据场景设置，1 代表精确，0 代表发散，平衡生成内容精准度与创造性。知识准确度要求较高的行业，建议设置0.8附近，例如医疗行业；如果需要依靠大模型发散能力来提升创作灵感，则设置为0.6附近，例如剧本创作。

利用大模型增强召回：可在召回阶段应用大模型提升效果，但需考虑多次调用成本。

Topk 排序方式：开源框架排序不一定最优，索引级别高时可增加 topk 数量，再用精确算法 rerank。

五、Prompt 阶段

匹配出 top k 个 chunk 后，将文本与问句添加到配置好的 prompt 提交给 LLM。根据论文《Lost in the Middle: How Language Models Use Long Contexts》，大模型对上下文中间位置的知识点提取较差，可通过 prompt 工程优化，如将 query 放于头部和尾部，依相似度将相似文档放于 context 两端，提升回答效果。

六、LLM 生成答案

prompt 提交给 LLM 后生成回答返回用户，此时大语言模型性能为最大影响因素。尽量选择一些对中文兼容性较高的模型，可以少走很多弯路。从ChatGLM2-6B替换成baichuan2-13b，发现针对我们的场景，后者的性能可以提升一倍左右。选择模型时需平衡成本与收益，部分场景无需顶级模型，有条件可对模型微调以适配场景。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述