第7章聊天机器人原理—7.1，7.2 Seq2Seq模型

最新推荐文章于 2024-07-15 00:51:17 发布

玛丽有只小绵羊

最新推荐文章于 2024-07-15 00:51:17 发布

阅读量304

点赞数 2

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lieslyang/article/details/104336594

版权

NLP实践TensorFlow打造聊天机器人专栏收录该内容

33 篇文章 4 订阅

订阅专栏

本文深入探讨了Seq2Seq模型及其与注意力机制的结合，解析了编码器-解码器结构如何处理序列到序列的任务，如翻译和文本摘要。注意力机制的引入解决了长序列信息丢失的问题，提高了模型对输入序列关键部分的关注度，增强了模型的表现。

摘要由CSDN通过智能技术生成

一、seq2seq模型

1.概念

（1）seq2seq是一个Encoder-Decoder结构的网络，它的输入是一个序列，输出也是一个序列。

（2）Encoder中将一个可变长度的信号序列变为固定长度的向量表达，Decoder将这个固定长度的向量变成可变长度的目标的信号序列。

（3）这个结构最重要的地方在于输入序列和输出序列的长度是可变的。

（4）可以用于翻译，聊天机器人、句法分析、文本摘要等。

2.encoder过程

（1）取得输入的文本，进行embedding，生成向量

（2）传入到LSTM中进行训练

（3）记录状态，并输出当前cell的结果

（4）依次循环，得到最终结果

3.decoder过程

（1）在encoder最后一个时间步长的隐藏层之后输入到decoder的第一个cell里

（2）通过激活函数得到候选的文本

（3）筛选出可能性最大的文本作为下一个时间步长的输入

（4）依次循环，得到目标

4.seq2seq模型

seq2seq结构

二、注意力机制

1.概念

（1）注意力机制是在序列到序列模型中用于注意编码器状态的最常用方法，它同时还可用于回顾序列模型的过去状态。

（2）注意力机制不仅能用来处理编码器或前面的隐藏层，它同样还能用来获得其他特征的分布，例如阅读理解任务中作为文本的词向量。

2.为什么需要注意力机制

（1）减小处理高维输入数据的计算负担，通过结构化的选取输入的子集，降低数据维度。

（2）让任务处理系统更专注于找到输入数据中显著的与当前输出相关的有用信息，从而提高输出的质量。

（3）Attention模型的最终目的是帮助类似编解码器这样的框架，更好的学到多种内容模态之间的相互关系，从而更好的表示这些信息，客服其无法解释从而很难设计的缺陷。

三、seq2seq与注意力机制

seq2seq+attention seq2seq

玛丽有只小绵羊

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。