RAG模式下文档向量切片问题及解决方案

     

       在使用RAG(Retrieval Augmented Generation)检索增强技术时,会涉及到知识库的构建和文档的切分。文档切分的好坏对下游任务的效果至关重要。

     文档切分粒度不好把控,既担心噪声太多,又担心语义信息丢失。

一、数据切片:RAG技术的"阿喀琉斯之踵"

朋友们,想象一下:你辛辛苦苦收集了海量数据,却因为切片不当,让你的AI变成了"结巴"或"健忘症患者"。看看下面的回答就能直观的展示大模型的回答之殇

1. 句子中断:AI变"结巴"

错误示例:
"人工智能技术正在快速" + "发展。"

这就像给AI喂了半块饼干,它能吃饱吗?当然不能!

2. 段落中断:AI得了"健忘症"

用户:公司2023年的重大项目有哪些?
AI:对不起,我没有找到相关信息。
(实际上是因为关键信息被切断了)

这就像让AI做一道缺了关键信息的填空题,它怎么可能答对? 

二、如何让大模型LLM简要、准确的回答细粒度问题?

举例1:

例如下面这段文字,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值