解决用户查询与知识库之间的语义不匹配问题,最大相似度提升 8.6%

“解决用户查询与知识库之间的语义不匹配问题,在巴西电信新闻语料(六万篇文章)上测试,最大相似度提升 8.6%

    如果你苦于自己的RAG应用精度无法提升,看完本文或许能找到全新的解决思路。

Why — 研究缘起与现实问题

  • 类别上的问题:传统做法更多地关注“优化检索模型本身”,而本解法聚焦“修改输入”(把 Query 变得更像知识库文档),降低嵌入偏差。
  • RAG 系统中,常见的“用户查询”与“知识库文档”在语义表达上存在 风格和结构不匹配。用户的自然语言问题往往带有疑问、指令或礼貌用语等“言语行为”标记,而知识库多为陈述句或叙述性文本。

    论文主旨:将用户查询从“疑问/命令式”转化为“陈述式”,精简为“命题内容”后再做向量检索,能与知识库中多为陈述句的文档更好对齐。

    核心观点:言语行为标记往往是语用层面的噪声,对于检索而言,它们并不必要,甚至会影响嵌入效果。

  • 具体要解决的问题:解决的痛点问题:说明当前 RAG 系统或大模型在实际应用中遇到的“疑问/指令式查询难匹配”“语义嵌入偏差”等问题。

    该研究立足于言语行为理论,把自然语言中的“命题内容”与“言语意图”区分开来。   

     主要包括疑问词(如 “what” “who” “how”)、命令动词(如 “show me” “tell me” “please”)、情感/礼貌用语(如 “I am happy that” “could you”)以及宣告性动词(如 “I declare” “I promise”)等等。   

     这些“言语行为”标记会干扰向量嵌入,使检索系统难以捕捉查询的核心信息,导致无法准确检索到真正相关的文档或片段。

    只要把疑问句里的客套和语气词去掉,剩下关键命题与知识库的陈述式文本更好匹配。

    最终发现:绝大多数言语行为类别中,“命题化”后的查询检索得分(如平均相似度)明显高于原始查询,尤其是疑问类、指令类、间接类提升最为明显。

    结果支持作者的假设:去除言语行为标记与知识库文本(陈述句)更对齐检索得分提高

核心方法

├── 核心方法:基于言语行为理论的命题内容抽取【主要研究方法】
│
│   ├── 输入【算法接收的原始数据】
│   │   ├── 用户查询【来自用户的自然语言问题,可能包含疑问词、命令、礼貌用语等】
│   │   └── 预先索引的语料库【巴西电信新闻文章与分段的嵌入向量,供检索使用】
│   │
│   ├── 处理过程【对查询进行命题化转换,再执行向量检索】
│   │   ├── 第 1 步:识别言语行为类型【借助 GPT-4 等模型】
│   │   │   └── 判断查询是断言、疑问、指令、表达、承诺、间接、宣告等哪种类型【分类】
│   │   │
│   │   ├── 第 2 步:去除言语行为标记【基于定制规则】
│   │   │   ├── 移除疑问词(如 “what” “why” “how”等)【消除问句痕迹】
│   │   │   ├── 删除命令/礼貌用语(如 “please” “show me” “could you”)【消除指令语气】
│   │   │   ├── 省略情感词、态度词(如 “I’m happy that” “unfortunately”)【去除表达成分】
│   │   │   └── 去掉表演性动词(如 “I declare” “I promise”)【脱离承诺或宣告形式】
│   │   │
│   │   ├── 第 3 步:保留命题核心【抽取核心信息】
│   │   │   └── 将复杂句式转化为简洁的陈述式或名词短语【保持与知识库中陈述式文本对齐】
│   │   │
│   │   ├── 第 4 步:生成“命题化查询”【输出简化的查询文本】
│   │   │   └── 由 GPT-4 或规则系统输出最终版本【规范后的查询,可嵌入检索】
│   │   │
│   │   ├── 第 5 步:向量化(Embedding)【使用同一套嵌入模型】
│   │   │   └── 对“命题化查询”调用 text-embedding-3-large 模型【生成 256 维向量】
│   │   │
│   │   └── 第 6 步:检索匹配【与索引语料进行相似度计算】
│   │       ├── 计算命题化查询向量 与 语料库向量 的余弦相似度【寻找最相关段落】
│   │       └── RAG 框架取相似度最高的若干文段【top-k 文档用作生成答案】
│   │
│   └── 输出【系统返回给用户或下游模型的结果】
│       ├── 命题化查询【供后续流程调用或留档,避免重复计算】
│       ├── 检索到的相关文段【提供事实依据,支撑 RAG 的文本生成】
│       └── 最终回答或摘要【RAG 生成器据检索结果产出面向用户的响应】
 

数据实验 

 效果对比

                           

                                

完整提示词

# 命题内容提取的系统提示词
你是一名专门基于言语行为理论(Speech Act Theory)提取用户查询中的命题内容的助手。

## 规则
你的任务是将用户输入转换为简化的陈述,明确保留核心命题内容,并系统性地去除言语行为的语言标记,以优化检索性能。

请针对每种言语行为类别应用以下增强的转换规则:

断言(Assertives):完全保留原始内容和措辞,不做任何更改。

疑问(Interrogatives):
- 将疑问句转换为清晰、直接的肯定陈述。
- 完全移除 问号("?")、疑问词("what"、"who"、"where"、"when"、"why"、"how"),以及疑问句中的助动词("is"、"does"、"did"、"can"、"will")。

指令(Directives,要求/命令):
- 将命令或请求转换为简洁的名词短语或主题表达。
- 移除 祈使动词("show"、"provide"、"tell")和礼貌用语("please"、"kindly")。

表达(Expressives):移除 所有主观、情感或态度标记("I'm happy"、"unfortunately"、"luckily"),保持严格的事实内容。

承诺(Commissives,承诺或保证):
- 简化表达,清晰且简洁地反映承诺的行动,省略 明确的承诺动词("I promise"、"I commit"、"I will")。
- 以中立的方式表达命题核心,即承诺的未来行动或意图。
间接言语行为(Indirect Speech Acts):移除 引导性短语或间接表达(例如:"I wonder if"、"Could you tell me"、"Do you know if"),将间接查询转换为直接肯定陈述。

宣告(Declaratives):移除 明确声明该行为的引导短语,例如:"I declare"、"We declare"、"I hereby confirm"、"I officially proclaim",仅保留清晰表达核心命题内容的部分。

具体目标及需处理的语言标记:
- 疑问标记(Question markers):完全移除 标点符号和与疑问相关的疑问词。
- 祈使标记(Imperative markers):完全移除 祈使动词和礼貌表达。
- 表演性动词(Performative verbs):省略 明确表达意图或承诺的动词(如:"I ask"、"I request"、"I suggest"、"I wonder"、"I promise"、"I commit"、"I declare"、"I hereby confirm"、"I officially proclaim")。
- 表达性术语(Expressive terms):完全去除 情感或态度表达。
- 元会话短语(Meta-conversational phrases):完全移除 语境填充词和间接对话标记("can you"、"could you"、"would you"、"do you know"、"I'd like to know")。

仅回复提取后的命题内容。请勿包含解释或额外文本。

既然看到这里,那能不能在【关注公众号】呢~

谢谢你看我的文章,我们,下次再见 ~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值