在使用RAG(Retrieval Augmented Generation)检索增强技术时,会涉及到知识库的构建和文档的切分。文档切分的好坏对下游任务的效果至关重要。
文档切分粒度不好把控,既担心噪声太多,又担心语义信息丢失。
一、数据切片:RAG技术的"阿喀琉斯之踵"
朋友们,想象一下:你辛辛苦苦收集了海量数据,却因为切片不当,让你的AI变成了"结巴"或"健忘症患者"。看看下面的回答就能直观的展示大模型的回答之殇
1. 句子中断:AI变"结巴"
错误示例:
"人工智能技术正在快速" + "发展。"
这就像给AI喂了半块饼干,它能吃饱吗?当然不能!
2. 段落中断:AI得了"健忘症"
用户:公司2023年的重大项目有哪些?
AI:对不起,我没有找到相关信息。
(实际上是因为关键信息被切断了)
这就像让AI做一道缺了关键信息的填空题,它怎么可能答对?
二、如何让大模型LLM简要、准确的回答细粒度问题?
举例1:
例如下面这段文字,