短文对话的神经反应机 -- Neural Responding Machine for Short-Text Conversation学习笔记

最新推荐文章于 2021-08-01 17:07:25 发布

X. Zhou

最新推荐文章于 2021-08-01 17:07:25 发布

阅读量197

点赞数

分类专栏：深度学习&神经网络 NLP&图像文章标签：神经网络机器学习 java 算法 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/real_cactus/article/details/110621470

版权

深度学习&神经网络同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

9 篇文章 0 订阅

订阅专栏

　　最近学习了一篇ACL会议上的文章，讲的是做一个短文对话的神经反映机，

　　原文：

　　会议：ACL(2015)

　　文章条目： Lifeng Shang, Zhengdong Lu, Hang Li:

　　Neural Responding Machine for Short-Text Conversation. 1577-1586

　　写下学习笔记：

　　拓展：Attention Model 注意力模型，本文中提到所采用的Encoder-Decoder框架。

　　

　　可以把它看作适合处理由一个句子(或篇章)生成另外一个句子(或篇章)的通用处理模型。

　　

X表示输出的句子，Y表示输出的句子。

　　Encoder对输入句子进行编码，转化成中间语义表示

　　Decoder对中间语义及已经生成的历史信息y1,y2,…生成i时刻要生成的单词yi

，很多个yi串起来就形成了Y，即输出的句子。

　　其中编码和解码都有很多可用的神经网络模型，如CNN/RNN/LSTM/深度LSTM等等，有很多种组合可以尝试。在文本处理中比较常见的Endocer和Decoder都采用RNN模型。

　　而本文也采用了seq2seq(Sequence to Sequence)模型，该模型可以运用在很多地方，比如说文章自动摘要、机器翻译、人机对话等等。(其实就是一个Encoder和Decoder模型，然后Encoder和Decoder用的都是RNN中的GRU网络)。因此本文中的Encoder-Decoder模型本质上来说应该是这样的：

　　

　　Short-Text Conversation(STC)指的是单轮对话任务——也就是对于每一个输入post给出一个对应的response。以往的STC方法主要有两种：检索式的方法(retrieval-based method)和统计机器翻译(statistical machine learning， SMT)。但是检索式的事先都固定好了，太缺乏多样性，而统计机器翻译将它作为一个翻译任务，而有时候post和respond是完全没有一点语义关系的。

　　本文采取通用的Encoder-Decoder模型，同时利用了seq2seq模型，在编码和解码的过程中都用的是循环神经网络CNN中的GRU(没有用LSTM是因为LSTM的参数太多，用GRU相对简单一些并且效果还不错)，并设计了一个基于神经网络的短文对话响应机NRM(相当于机器对话)，训练数据是通过微博收集的大量一轮的对话。

　　首先获取数据，遵从经典的步骤，首先是删除无意义词如”wow”；筛除广告；只留前30个人的回复。

　　接下来转化的模型：

　　

　　主要是这个L很重要，要能够表示输入句子的特性，这里要用到注意力模型确定h中的哪一步分需要着重考虑。由输入数据和y1,y2,…yi-1决定。

　　解码用到下面的模型：

　　

　　虚线代表 g(.) ，实线代表 f(.)

　　

　　编码方案提出了三种：

　　global scheme(NRM-glo)：

简单定义 hT 为Ct

　　local scheme(NRM-loc)：

　　

这里用到了注意力模型(AM模型)，动态决定

，而

，

　　hybrid scheme combines the aforementioned 2(NRM-hyb)：

　　第一种全局的方法能抓住post的全局特征，而第二种局部的方法能倚靠AM模型选择不同位置的单词作为重要特征，因此第三种方法可以混合一下前两种方法。模型如下：

　　

　　实验证明检索式的方法效果和NRM-glo差不多，因为它基本使用的都是预定义的responses，不会有一些语法上的问题，同时匹配特征保证了responses和post的相关性，

因此从表面上看来这是最合适的回答，但是实际上它只是重复了post说的内容而已，而NRM-hyb结合了global和local的优点之后，performance明显好于其他方法。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
短文对话的神经反应机 -- Neural Responding Machine for Short-Text Conversation学习笔记

　　最近学习了一篇ACL会议上的文章，讲的是做一个短文对话的神经反映机，　　原文：　　会议：ACL(2015)　　文章条目： Lifeng Shang, Zhengdong Lu, Hang Li:　　Neural Responding Machine for Short-Text Conversation. 1577-1586　　写下学习笔记：　　拓展：Attenti...
复制链接

扫一扫

专栏目录

X. Zhou CSDN认证博客专家 CSDN认证企业博客

码龄4年

41: 原创

54万+: 周排名

132万+: 总排名

2万+: 访问

: 等级

494: 积分

12: 粉丝

17: 获赞

10: 评论

81: 收藏

私信

关注

热门文章

分类专栏

最新评论

Transformer解析与tensorflow代码解读
weixin_40552976: attention = tf.transpose(outputs, [0, 2, 1]) tf.summary.image("attention", tf.expand_dims(attention[:1], -1)) 用来干啥的？？为啥要transpose一下？？本来是(N,TQ,Tk)现在到(N,Tk,TQ) 这里对output做transpose，得到的attention可能只是为了给tf.summary.image使用，tf.summary.image是一个图片展示工具，猜测是展示attention的权重。这个attention只用在此处，并没有流入下游，下游使用的仍然是output！！！
使用BERT预训练模型+微调进行文本分类
RabbitKong: 请问用的什么数据啊
基于docker的python faster-rcnn caffe环境搭建+提取目标特征实验
_RAN-v: 请问作者有resnet101_faster_rcnn_final.caffe这个模型吗？源代码里的链接失效了
使用BERT模型生成句子序列向量
气象少年: 你好博主你能写一份pytorch版本的吗？邮箱1838847860@qq.com
基于docker的python faster-rcnn caffe环境搭建+提取目标特征实验
weixin_41584101: 按照作者的方法成功编译了，请问作者有保存预训练模型吗？可以分享一下吗！不胜感激

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。