第7章 聊天机器人原理—7.1,7.2 Seq2Seq模型

本文深入探讨了Seq2Seq模型及其与注意力机制的结合,解析了编码器-解码器结构如何处理序列到序列的任务,如翻译和文本摘要。注意力机制的引入解决了长序列信息丢失的问题,提高了模型对输入序列关键部分的关注度,增强了模型的表现。
摘要由CSDN通过智能技术生成

一、seq2seq模型

1.概念

(1)seq2seq是一个Encoder-Decoder结构的网络,它的输入是一个序列,输出也是一个序列。

(2)Encoder中将一个可变长度的信号序列变为固定长度的向量表达,Decoder将这个固定长度的向量变成可变长度的目标的信号序列。

(3)这个结构最重要的地方在于输入序列和输出序列的长度是可变的。

(4)可以用于翻译,聊天机器人、句法分析、文本摘要等。

2.encoder过程

(1)取得输入的文本,进行embedding,生成向量

(2)传入到LSTM中进行训练

(3)记录状态,并输出当前cell的结果

(4)依次循环,得到最终结果

3.decoder过程

(1)在encoder最后一个时间步长的隐藏层之后输入到decoder的第一个cell里

(2)通过激活函数得到候选的文本

(3)筛选出可能性最大的文本作为下一个时间步长的输入

(4)依次循环,得到目标

4.seq2seq模型

seq2seq结构

二、注意力机制

1.概念

(1)注意力机制是在序列到序列模型中用于注意编码器状态的最常用方法,它同时还可用于回顾序列模型的过去状态。

(2)注意力机制不仅能用来处理编码器或前面的隐藏层,它同样还能用来获得其他特征的分布,例如阅读理解任务中作为文本的词向量。

2.为什么需要注意力机制

(1)减小处理高维输入数据的计算负担,通过结构化的选取输入的子集,降低数据维度。

(2)让任务处理系统更专注于找到输入数据中显著的与当前输出相关的有用信息,从而提高输出的质量。

(3)Attention模型的最终目的是帮助类似编解码器这样的框架,更好的学到多种内容模态之间的相互关系,从而更好的表示这些信息,客服其无法解释从而很难设计的缺陷。

三、seq2seq与注意力机制

       seq2seq+attention                                                 seq2seq

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值