客服问答难题破解?RAG 携手知识图谱来 “救场”
该论文发表在 SIGIR 2024 上,在这篇论文中,研究者提出了一种结合知识图谱(KG)和检索增强生成(RAG)的客服问答新方法,旨在解决传统RAG方法在处理客服问题时存在的局限性,显著提升检索精度和回答质量。
相关链接:https://doi.org/10.1145/3626772.3661370
之前的问题
在客服技术支持中,快速准确地检索相关过往问题对解决客户咨询至关重要。基于嵌入的检索(EBR)、大语言模型(LLMs)和检索增强生成(RAG)虽有进步,但传统RAG方法将历史问题跟踪工单视为纯文本处理,忽略了问题内部结构和问题间关系,导致检索精度下降;同时,为适应嵌入模型上下文长度限制而进行的文本分段,会使相关内容断开,降低回答质量。
之前的方案
传统激活函数在不同场景各有优劣,且与随机正则化方法相互独立,无法协同提升神经网络性能。在客服问答领域,基于知识图谱的问答方法主要有检索式、模板式和语义解析式,但都存在一定局限性。例如,检索式方法在处理涉及多个实体的问题时存在困难;模板式方法受限于可用模板的范围;语义解析式方法则面临文本到逻辑形式映射的挑战。
Proposed Method(提出方法):
提出一种基于LLM的客服问答系统,将RAG与KG相结合。该系统分为两个阶段:
1. 知识图谱构建:采用双层架构定义知识图谱结构,分别建模问题内部和问题间的关系。在构建过程中,先通过基于规则的提取和LLM解析将工单转换为树状结构,再根据工单中的显式链接和标题语义相似性建立隐式链接,将个体树合并成图。最后,使用预训练文本嵌入模型为图节点生成嵌入并存储在向量数据库中。
2.检索和问答:首先通过LLM解析用户查询,提取命名实体和查询意图。然后,基于嵌入的检索方法,先利用命名实体集确定最相关的历史问题工单,再通过LLM将原始查询重新表述并转换为图数据库语言,以提取相关子图。最后,由LLM根据检索到的数据生成答案,若查询执行出现问题,则采用基于文本的检索方法作为回退机制。
方法的优势
该方法通过保留客服结构信息,提高了检索准确性;同时,克服了文本分段带来的问题,增强了回答质量。与传统方法相比,在处理复杂关系和上下文理解方面具有明显优势,为客服问答提供了更全面、准确的解决方案。
实验与结果
使用精心整理的“黄金”数据集进行评估,对比了传统基于文本的EBR方法和本文提出的方法。实验结果表明,在检索性能指标(MRR、Recall@K、NDCG@K)和问答性能指标(BLEU、ROUGE、METEOR)上,本文方法均有显著提升。例如,MRR比基线提高了77.6%,BLEU得分提高了0.32。
最后的思考
研究成果显著推进了客服自动问答系统的发展,但仍有改进空间。未来可致力于开发自动提取图模板的机制,增强系统适应性;研究基于用户查询的知识图谱动态更新,提高实时响应能力;探索该系统在客服领域之外的应用。