如何做好chatFile？如何做RGA？

水的精神

已于 2024-01-09 10:31:49 修改

阅读量896

点赞数 20

分类专栏： NLP Elasticsearch RAG 文章标签：算法人工智能机器学习 RGA chatFile

于 2023-12-26 20:09:25 首次发布

本文链接：https://blog.csdn.net/star1210644725/article/details/135230207

版权

Elasticsearch 同时被 3 个专栏收录

155 篇文章 41 订阅

订阅专栏

RAG

38 篇文章 4 订阅

订阅专栏

NLP

6 篇文章 0 订阅

订阅专栏

chatFile

chatFile相关问题。这里有一篇综述论文，讲的很清楚！推荐研读

https://simg.baai.ac.cn/paperfile/25a43194-c74c-4cd3-b60f-0a1f27f8b8af.pdf

简单处理流程

用户输入问题 ——> 把问题做BM25召回+把问题embedding然后做语义召回 ——> 召回结果筛选，大于某个阈值，则用于构建prompt ——> 模型返回结果 ——>页面回显

第一个阶段，数据解析

能解析：表格数据、图片数据、各个类型数据doc PDF markdown等

能分类：如何定制规则，不同的数据，不用的切分策略

扩展存储：类似将标题数据进行独立存储。这里有哪些数据是要继续扩展的，在后续的检索过程中可能会用到。

上下文数据：包括问答过程中的上下文？是否要存储。

像通义千问，就把问题都给记下来了。所以可以对问题进行总结。

数据切分规则：不同的数据，如何指定切分规则，才能更好的保留上下文内容。

问题生成方向：给用户生成问题，是为了获取很好的召回效果。就像出题一样，在出题前应该已经有正确答案了。反之会严重影响体验。

目前在问题生成上，存在较多的问题，经常发现，模型自己给的问题，无法正确回答！

问题能够正确回答，应该先理解问的是什么。其次是搜索能够把正确的内容召回，模型才有可能回答出来。而，能够搜索到的前提，是已经提前构建好有关数据。所以在数据构建阶段，不仅要保证不丢失数据，还需要构建更多的元数据。

第二个阶段，召回阶段

意图识别，先弄清楚再到处理action上。是QA？摘要？总结？同看全文，标题提取？脉络分析？事件？经典反例：eg1 这篇文章在说什么？显然不能去搜索，应该去召回摘要。eg2 关于某某问题，都包含了哪几个点？此时

query 改写：用模型去改写query是否会有提生，看到比人有把问题经过GPT4，然后搜索召回会有提升。

思维链条：

问题拆解：是否需要将用户的复杂问题，进行拆分，然后再召回？

多路召回策略：

尽可能把和问题相关的数据召回。

第三个阶段，数据精排

多路召回后的数据，是否都包含了答案？如何把噪音数据清理掉？

多路召回的数据，如何做排序提升？目前分为BM25召回和向量检索召回。两者有各自的特点。向量语义检索，跟具有普适性，用户的问法可能和文档中的内容描述方式不一样，此时语义检索可以发挥好的作用。而BM25在用户输出的内容和文档强相关的时候，往往能获取到更好的效果，例如用户问题中的诸多关键词，都在原文中出现了，往往召回效果会比向量语义检索更好。两者又有同样的缺点，在问题描述较短的时候，召回的效果较差。很短的词语在向量模型中，会丢失语义，因为在embedding的时候，就是用段落做的embedding。如果拿一个很短的词语去搜，不一定会有好的召回结果（这里可以探索，有没有更有效的文本嵌入模型）。同样BM25在很短词的检索场景下，召回会有太多的干扰项，如果一个词语被提及很多次，也同样不知道那条是答案。

检索阶段的目标，是把和问题最相关的答案，尽可能的排在前边。其次是把和问题不相关的噪音数据排除掉，否则会出现回答错误的情况。