基于ElasticSearch+文本相似度模型的检索式智能对话方案

置顶 chenxy02

已于 2022-02-28 21:50:30 修改

阅读量3.6k

点赞数 1

分类专栏： NLP 人工智能文章标签： elasticsearch 大数据 big data

于 2021-10-29 21:53:42 首次发布

本文链接：https://blog.csdn.net/chenxy02/article/details/121041766

版权

人工智能同时被 2 个专栏收录

23 篇文章 0 订阅

订阅专栏

NLP

8 篇文章 2 订阅

订阅专栏

背景

在对话系统领域，检索式对话系统一直是工业界的偏爱。而如何“检索”，或者说如何对用户query(输入的问题)进行意图匹配，则是能否做好检索式对话系统的关键所在。

笔者曾经简单的基于ElasticSearch的相似度匹配进行过实现。后面又引入深度学习模型（详见：深度学习技术选型——文本相似度计算_chenxy02的博客-CSDN博客——“文本相似度识别”提升了系统的意图匹配机制，于是便有了这篇博客。

为什么只用ES相似度匹配不行

ES（ElasticSearch）所提供的相似度机制本质上是一种基于词频、基于规则的相似度计算（详见：ElasticSearch相似度匹配及分词器选择_chenxy02的博客-CSDN博客）。其优点是：快，非常快。但用ES相似度计算来做对话系统的意图匹配，存在什么缺点呢？

“深圳的市花是什么”&“鹏城的市花是啥” ，这两句话我们明显能看得出来表达的是一个意图。但如果是仅用ES相似度识别实现的问答机器人则是无法看出来的的。

解决同一意图不同表达的问题

虽然现在NLP技术的发展，还很难让机器的文字理解达人类的水平。不过随着Word2Vec、bert等NLP预训练框架的出世，NLP技术也是取得了一些不错的成就。比如：能把“北京”、“首都”这两个词，当做有接近意思的字；甚至在一定程度上能识别出表达同一意图的不同句子。（关于"语言模型"、"词/句向量"的知识，可参见：自然语言处理中的预训练技术发展史_chenxy02的博客-CSDN博客）

简单点说就是，word2vec将每个词赋予了空间上的一个向量，我们通过word2vec就可以很好的计算出两个词之间的相似度。

“粗筛”+“精选”的意图匹配方案

基于上述的情况，笔者得到这样一个意图匹配方案—— “粗筛”+“精选”（详见下面流程图）。

先经过一个“粗筛”的模块，这个模块一般将用户当前轮的query与语料库里query进行快速匹配，得到几十上百个候选意图，完成第一轮的匹配。ES信息检索模型BM25 便是一个不错做“粗筛”模块的选择。

接下来便是使用深度学习模型，在得到的候选意图中进行精选。将选择结果对应的答案，返回给用户。

另外一种思路：

笔者采用上述 “粗筛”+“精选”的意图匹配方案，除了上述的分析，有一部分原因是不太想对已运行的项目代码一次性做太大的改动。

其实还存在这样一种思路：去掉“粗筛”，直接“精选”——直接将word2vec存入elasticsearch，然后在召回的时候便可以根据word embedding来计算相似度召回（有机会再详细验证下基于这个思路做的方案，先写到这了）。

工程化方案：

上面讲述的都是一些核心处理逻辑，实际上我们在做工程化方案落地的时候。还得结合“推理引擎线程池”、“向量缓存”、“分布式计算”等技术，才能实现高性能高并发高可用。以上技术都是笔者团队在实现在线人脸识别能力（基于百万级人脸库）时的必要技术，有机会再写个文章细讲。

chenxy02

关注

1
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
基于ElasticSearch+文本相似度模型的检索式智能对话方案

背景：在对话系统领域，检索式对话系统一直是工业界的偏爱。笔者曾经单纯基于ElasticSearch的相似度匹配进行过实现（详见：基于ElasticSearch的检索式智能问答方案_chenxy02的博客-CSDN博客）。后面又引入深度学习模型——“文本相似度识别”提升了系统的意图匹配机制，于是便有了这篇博客。为什么只用ES相似度匹配不行ES（ElasticSearch）所提供的相似度机制本质上是一种基于词频、基于规则的相似度计算（详见：ElasticSearch相似度匹配及分词器选择_chen..
复制链接

扫一扫

专栏目录