检索式人工智障识记

最新推荐文章于 2021-04-18 10:58:40 发布

iofu728

最新推荐文章于 2021-04-18 10:58:40 发布

阅读量616

点赞数

分类专栏： NLP 文章标签： NLP 检索式对话多轮对话聊天机器人问答系统

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/iofu728/article/details/84147531

版权

多轮检索式对话模型综述

摘要由CSDN通过智能技术生成

blog可能排版更好点

拖了一个多星期了都快拖到Final Presentation DDL了我这个懒癌晚期都看不下去了

好究竟是道德的沦丧还是人性的扭曲？欢迎来到这一期的「奇葩说之中华田园犬大解密」

在了解了基本的RNN家族之后

我们把步子迈得大一点直接对准目前检索式 chatbots研究前沿

首先 QA系统分为任务型，非任务型两大类

任务型就是像Siri这种，需要识别用户派遣的任务，然后完成相应的任务

而非任务则是主要是闲聊机器人，购物客服机器人

非任务按Answer的生成方式又可以分为 检索式 生成式

目前工业上落地的(效果好的)就是检索式

所以我们为了学术 ~~(找工作)~~ 来研究检索式对话Chatbots

检索式QA 和 生产式QA 最大的区别就是检索式只需要做encode 而生成式不仅仅要encode 还要decode

这个应该很好理解检索式只需要把query+Context encode 到向量然后计算Similarity，取最高的几个

但生成式 encode计算完之后还得根据计算值decode成语句返回给用户

这就是他们最大的区别当然我们这里讨论的是检索式

Base mind

检索式对话顾名思义就是从一堆语料库中通过检索 来匹配到相近的对话从而输出答案

注意这里有两个关键词一个是检索 另外一个是匹配

检索就是检查索引所以检索的关键就是把词变成词向量预处理成Index

匹配就是根据词向量计算出一个匹配值最简单就是计算Cosine Distance 当然这样效果很一般

于是就有一堆学者提出一堆模型

常规的做法有利用RNN家族获取句、文章粒度的信息

然后就开始论文串讲了

上古时代

话说盘古还没开天女娲还没补石后裔还没射日

那个时候还没有Word2vector 更不用说小学五年级就可以学得TF 对词向量的计算还都是传统的Hash优化思路

这个时候出现了一个名叫DSSM的模型[Po-Sen Huang et al. 2013] Learning Deep Structured Semantic Models for Web Search using Clickthrough Data

在这里插入图片描述

这个模型创新点有

利用wordHash代替传统词袋模型从而达到降维效果
- word Hash 就是用把词前后加上#，然后每n个词做一个切割，比如说good->{ #go, goo, ood, od#}
- 每个切割分量作为一维向量
- 因为英文中单词数量级远大于n个字母组合的数量级
- 且这种方案的Hash碰撞率较小 3字母表示仅为0.0044％
- WordHash可以看做是Word2Vector早期的方案
- 其基本思想每个词之间并非完全正交然后应该没有那么多独立的维度所以就可以压缩词向量大小
利用全神经网络对句子进行处理得到相对应的句粒度向量
- 文章利用三个隐藏层进行训练，第一个隐藏层为WordHash层有30K个节点，第二三层各有300个节点，输出层有128个节点，并使用随机梯度下降SGN训练

启蒙运动

随着word2Vec的提出再加上NN方法在NLP中进一步运用检索式QA有了不错的发展

但回顾之前的DSSM模型在计算出句粒度的向量之后就直接使用cosine distance 进行计算Similarity

直观感觉这样算效果不会太好于是这个时期就有一些学者提出一些改进Similarity计算方法的模型

`MV-LSTM`

就有学者提出由构造对齐矩阵然后再做池化的方式计算句粒度之间相似度的MV-LSTM模型[Shengxian Wan et al. 2015]

在这里插入图片描述

计算句子间的两两匹配度存入对齐矩阵从细粒度描述句子间关系
利用双向LSTM模型减少因为RNN时序遍历的特性导致模型结果更偏向于最后几个单词的现象
Similarity不只直接做cosine计算根据模型特性动态调整参数

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
检索式人工智障识记

多轮检索式对话模型综述
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。