【论文笔记】AliMe: seq2seq && IR

最新推荐文章于 2021-01-17 13:30:10 发布

GodsLeft

最新推荐文章于 2021-01-17 13:30:10 发布

阅读量471

点赞数

分类专栏：算法与数据结构文章标签： AliMe 自然语言处理 chatbot

本文链接：https://blog.csdn.net/GodsLeft/article/details/103704094

版权

17 篇文章 0 订阅

订阅专栏

论文

AliMe Chat: A sequence to Sequence and Rerank based Chatbot Engine
讲的是如何做开放领域的聊天机器人

在这里插入图片描述

当用户来了一个问题之后，通过IR系统在QA知识库当中检索出来一个候选答案的集合： $q_{kb_i}, r_i>_{i=1}^k (k=10)$ ，其中 $q_{kb_i}$ 表示knowledge Base当中检索出来的问题， $r_i$ 代表对应问题的答案
对原始问题 $q$ 和候选答案 $r_i$ 组成的问答对计算一个置信度 $o(r_i) = s(q, r_i)$ ，其中计算置信度的函数 $s$ ，这是一个seq2seq模型做的rerank model，如下： $s^{Mean-Prob} = \frac{1}{n} \sum_{i=1}^n p(y_i=w_i| \theta_i) , 其中\theta_i=\{y_1,y_2,...,y_{i-1}, c_i\}$
挑选出最佳答案 $r, o(r)=max (o(r_i))$ ，如果 $o (r) > = T$ 直接返回答案，否则返回生成模型生成的答案 $r^\prime$

使用了常见的seq2seq模型：
$p(y_i | \theta_i) = p(y_i=w_i | y_1, y_2,...,y_{i-1}, c_i) = f(y_{i-1}, s_{i-1}, c_i) \\ c_i = \sum_{j=1}^m \alpha_{ij}h_j$
backeting and padding：对问题和长度进行了bucket，使用了五个bucket: (5,5), (5,10),(10,15),(20,30),(45,60)，第一个数字代表问题的长度，第二个数字代表答案的长度
softmax over sampled words：使用了负采样的技术，512个随机的词作为负样本 + 一个正样本
beam search decoder：使用了beam search的技术

使用上面的生成模型，去给IR生成的候选集打分，对用户输入的问题 $q,r_i$ ，其中 $r_i$ 可以视为单词的序列 $w_1, w_2,...,w_n$ ： $s^{Mean-Prob} = \frac{1}{n} \sum_{i=1}^n p(y_i = w_i | \theta_i)$
其本质上就是，计算生成每一个候选答案每个词的概率，进行概率平均，得到一个候选答案的得分，模型也不用再训练，直接使用上面的生成模型

其实本质上就是使用seq2seq+attention给IR生成的候选答案打分，同时因为生成模型本身生成的答案已经是概率最大的答案了，相当于打分都是使用seq2seq模型来做的，统一了IR评分和seq2seq的评分
可以考虑使用Transformer来做生成模型
可以考虑使用faiss做IR检索，或者使用bert做IR的检索
目前还不清楚的技术是：
- 如何将知识图谱集成到聊天机器人当中
- 如何将完成任务型
- 如何进行模板匹配，进行问答