FAQ检索式问答系统 or 智能客服的问答对如何构建

最新推荐文章于 2025-04-15 18:09:47 发布

AI学习不迷路

最新推荐文章于 2025-04-15 18:09:47 发布

阅读量1.5k

点赞数 4

文章标签：机器学习人工智能大模型微调大模型大语言模型问答系统智能客服

本文链接：https://blog.csdn.net/qkh1234567/article/details/143508725

版权

一、FAQ问答系统（智能客服）中的知识库是什么

FAQ 指的是常见问答，也就是针对于某个业务，用户经常问的问题、重点关切的问题。对于一些销售型、服务型的公司，经常会在公司官网首页，或者APP中配置在线客服系统，为了节省客服人力开支，开发一个具备自动问答功能的客服机器人是有必要的。我们可以将一些固定的、简单的、常见的历史问题进行归纳总结制作“标准问题”，然后组织相关人员撰写答案，如此就生成了 FAQ 知识库了。

二、问答对从哪里来

1、专业人员撰写

比如某公司生成了某产品，那么会有产品手册，这样就可以从手册中总结一些问题。比如“XX产品都有什么型号？”，“XX型号空调是多少匹？“，”2.0匹动力的空调可以制冷多少平米房间？”等等。

2、从客服系统积累的历史数据中挖掘

有的时候我们并不知道用户经常会关注什么，会问什么问题，因此从用户的历史数据中进行挖掘是补充问答对的常用有效手段。

糖尿病可以每天早上吃鸡蛋吗糖尿病可以每天早上吃鸡蛋吗

我是二型糖尿病，能吃鸡蛋吗？水果能吃吗？

糖尿病能喝冲鸡蛋吗

乳腺癌中期怎么办

乳腺癌中期最好采用什么治疗方法

女性乳腺癌中期如何治疗

乳腺癌中期选择什么治疗方式好？

乳腺癌中期比较好的治疗方法

中期乳腺癌的最佳治疗办法是哪些

乳腺癌中期怎么治

假如上述10个问句是用户询问过的历史问题，那么我们在构建知识库的时候就可以将其添加进去了。但是需要将其都加入问答对吗？显然是不需要的，我们需要添加的是常问的问题，不是什么问题都添加，那么如何判定某个问题是否是常问的呢？可以看到里面有很多重复的问题，但是问法却大不相同，如何进行统计呢？另外这么多个相同的问题，选择哪个作为标准问题呢？

我们从历史数据中挖掘问答对的目的是可以从上述10个问题中挖掘出

“糖尿病能吃鸡蛋吗？”
“乳腺癌中期的治疗方法是什么？”

形如这样的标准问题补充到我们的 FAQ 问答知识库中。

三、如何构建问答知识库

本节主要讲一讲如何做历史数据挖掘，就是如何统计哪些问题是常问的。很显然可以使用文本聚类算法来对所有历史问题进行聚类，然后对每个聚类的簇进行计数；我们可以设定一个数量，如果某个簇所包含的样本数量超过这个数量，就将其定义为常问问题；然后从这个簇里面选择一个具有代表性的句子作为该类问题的标准问，当然也可以使用模型生成、或人为编写一个标准问。

聚类算法是无监督算法，下文分别介绍 k-means 和 DBSCAN 算法。

1、kmeans 聚类算法

最小化 E 无法找到最优解，这是一个NP 难问题，因此Kmeans 算法采用了贪心策略，通过迭代优化来近似求解，其 python 实现伪代码算法如下所示：

从上述介绍，其实可以看到 k 均值聚类算法存在以下这些缺点：

非常依赖人工经验来设置簇的数量 k，在做新问题挖掘时，我们大多数情况是不知道有多少个新问题的
算法对最开始的 k 个初始化均值向量的选取非常敏感，由于初始均值向量选取得随机性，导致每次训练聚类算法所得到的的结果可能都不一致；使用 k-means++ 初始化方案能一定程度的缓解
该算法假设簇是凸的，且各向同性的，但情况并非总是如此；因此它对细长簇或形状不规则的流形簇聚类效果较差（如下图所示）
由最小化平方误差公式知道，我们希望误差越小越好，甚至趋向于0；但是在高维向量空间，欧氏距离计算的结果总是比较大（维度灾难），这时，聚类前先将样本向量做PCA 降维是一个好选择
K 均值聚类无法获取全局最优聚类结果，只能得到局部最优解
对噪声非常敏感