概要
因为单纯地训练文本相似度不是很能达到要求,打算增加一个RAG做检索增强,用于检索模型预测的prompt embedding。
技术细节
用langchain构建一个RAG,用于检索增强。在构建的时候可能遇到问题的点是一开始的数据分块和检索后的重排序。
参考微软的分析,在模型分块比较小的时候有比较高的召回率,但是也不能太小,可能会造成信息丢失。以512tokens并且保持百分之二十五的重叠率为效果比较好的。
重排序引进bge-reranking模型对产生的embedding进行重排序以更好地输出相似的embedding。