Seq2Seq 到 Attention的演变

最新推荐文章于 2024-06-01 10:53:02 发布

weixin_30621919

最新推荐文章于 2024-06-01 10:53:02 发布

阅读量140

点赞数

文章标签：人工智能

原文链接：http://www.cnblogs.com/yjybupt/p/10949401.html

版权

https://zhuanlan.zhihu.com/p/28054589

1、Encoder-Decoder is also called Seq2Seq

It's been used to generator sentence based on differenct input length and output length

我们知道将S2S就是将序列信息压缩到一个向量c，这个c具体是如何形成？其实有多种方式

如果RNN使用GRU，则可以是：

而我常用的LSTM增加了记忆状态state_c，所以变成[state_h,state_c]

2、得到了c之后如何解码也是一个问题，常见的解码方式有：

我们的对话模型采用的就是这种解码方式，不过这里面少了input层

或者

3、那么Attention机制是什么？

Attention的提出，就是为了解决S2S的一个问题，就是将信息压缩成一个向量c之后，必然会损失很多的信息。

一个思路是，我们不应该压缩成一个c，而是应该生成很多c，并根据不同时序的权重不同，去加权求和使用这些c

下列是两个图的对比：

转载于:https://www.cnblogs.com/yjybupt/p/10949401.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30621919

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

【机器学习】从RNN到Attention 中篇从Seq2Seq到Attention in Seq2Seq

努力学挖掘机的李某某的博客

06-30

705

变长输出模型——Seq2Seq 在上一篇【机器学习】从RNN到Attention上篇循环神经网络RNN，门控循环神经网络LSTM中，我们的建模基础是通过一串历史的时间序列x1,x2,.....,xtx_1,x_2,.....,x_tx1,x2,.....,xt，预测下一时刻的时间序列xt+1x_{t+1}xt+1，即输出为1一个数据。如下图所示：这类模型通常可以用来解决时间序列预测，...

seq2seq发展介绍

雾里闹的博客

10-14

823

seq2seq发展介绍因为seq2seq相关介绍博客很多，之前只是通过博客学习，一直没有读过相关论文。虽然通过博客对seq2seq大体框架有所了解，但是对于实现细节和发展并不是很清楚。近日在学习copynet时看到使用了seq2seq作为模型的主体框架，便借此机会对细节发展进行详细了解。传统的rnn对于输入一个字符预测一个字符这种情况有着不错的使用效果，但对于翻译任务而言，源句子和目标句子常常并不有着相同长度。在这种情况下，传统的rnn将难以胜任，为了解决这个问题，在Learning Phrase Re

参与评论您还未登录，请先登录后发表或查看评论

深度学习建模训练总结（四）：梳理NLP发展里程碑——seq2seq

jesseyule的博客

09-17

471

因为我自己是比较希望做NLP方向的研究，之前简单回顾了一下基础的神经网络之后，接下来打算就从NLP的角度，来看看模型是怎么一步步改进发展的。对于自然语言处理，首先想到的问题肯定是怎么把自然语言转化为向数字表示，毕竟机器没办法理解人类的语言，只能处理数字，所以人们就研究出了很多embedding模型，关于embedding我想在之后详细谈谈，这里先暂时跳过。假设我们已经对自然语言进行了embedding，那么首先想到的自然就是使用最基本的神经网络进行处理和分析，也就是CNN和LSTM（RNN），这算是N.

从Seq2Seq到Attention

atarik@163.com

07-22

303

Seq2Seq模型是RNN最重要的一个变种：N vs M（输入与输出序列长度不同）。这种结构又叫Encoder-Decoder模型。原始的N vs N RNN要求序列等长，然而我们遇到的大部分问题序列都是不等长的，如机器翻译中，源语言和目标语言的句子往往并没有相同的长度。为此，Encoder-Decoder结构先将输入数据编码成一个上下文向量c：得到c有多种方式，最简单的方法就...

自然语言处理(NLP)之路——概念理解——从 Google translate 的 seq2seq 看自然语言处理(NLP)的发展

Robin_Pi的博客

01-05

487

Google translate 与 seq2seq seq2seq 是 Google translate 使用的技术，它颠覆了传统的自然语言处理。而Google translate 上线的重大意义在于它证明了跨自然语言的可微分的可编辑的语义表征方式。它怎么做呢？实际上是这么几个步骤：第一，它把中文词先翻成一个词向量，变成一个数字向量。第二，它对这个词向量再编辑，变成一个语义表示的方式。 ...

【Attention演变史】翻译模型seq2seq （第二弹）

Petersburg的博客

07-28

277

简要介绍seq2seq模型的意义，提及内部处理方式。

CS224n-Lecture8-Machine Translation, Seq2Seq and Attention

咸鱼的小站

08-21

431

综述 1Introduce a new task: Machine Translation 介绍机器翻译任务。 2.Introduce a new neural architecture: sequence-to-sequence 介绍神经网络结构：序列到序列。该结构的一个主要用例就是机器翻译。 3.Introduce a new neural technique: attention 介绍神经网络技术：注意力机制。该技术主要用于改进序列到序列网络的效果。第一部分机器翻译 ..

Tensorflow-seq2seq-from-scratch:该存储库包含各种seq到seq模型的示例代码

04-30

存储库可能包括不同的Seq2Seq模型变体，例如加入注意力机制的模型（如Bahdanau Attention或Luong Attention）、Transformer模型等。每种变体都有其特定的优缺点和应用场景。 6. **Jupyter Notebook**：使用...

自然语言处理中的注意力机制：从Seq2Seq到Transformer的演变之旅

[自然语言处理中的注意力机制：从Seq2Seq到Transformer的演变之旅](https://dl-preview.csdnimg.cn/21069701/0006-9d8d102ce15ef8947f58b75694b8f1ca_preview-wide.png) # 1. 自然语言处理中的注意力机制概述注意...

NLP-生成模型-2017-PGNet：Seq2Seq+Attention+Coverage+Copy【Coverage解决解码端重复解码问题；Copy机制解决解码端OOV问题】【抽取式+生成式】

u013250861的博客

12-24

3540

Pointer Network(指针网络)属于生成式模型。 - 仅用传统的 Seq2Seq 模型可以实现生成式摘要，但存在两个问题： 1. 可能不准确地再现细节, 无法处理词汇不足（OOV）单词/they are liable to reproduce factual details inaccurately; 2. 倾向于重复自己/they tend to repeat themselves。 - 传统的 Seq2Seq 模型中 Decoder 输出的目标数量是固定的，例如翻译时 Decoder 预测

Seq2Seq模型：详述其发展历程、深远影响与结构深度剖析

最新发布

JINGWHALE

06-01

1127

Seq2Seq模型的由来是深度学习技术在NLP领域不断演进的结果，尤其受到RNNs、LSTMs/GRUs等循环神经网络结构发展的深刻影响。其诞生标志了端到端学习在复杂序列转换任务中的可行性，成功的推动了Attention机制、Transformer模型的提出等，持续推动着NLP及相关领域技术的进步。

Seq2Seq综述

qjx_ruc的博客

03-28

1564

这篇文章是一个科研项目中博主翻了很多文献后写的一个Part,于是想要搬上来小小记录一下，里面参考了很多其他的博客，但是在写的时候自己也在逐渐理清自己的思路~对Seq2Seq有了更深一些的理解。版权相关问题可以私信我（毕竟这篇也是一时兴起哇）（一）Seq2Seq历史以及作用 Seq2Seq模型全名Sequence-to-sequence,以下全部简称为Seq2Seq,该模型最早由两篇文章独立地阐述了它主要思想，分别是Google Brain团队的《Sequence to Sequence Learnin

【Seq2Seq】相关理论基础与RNN的相应变体

当回首往事的时候，不会因虚度年华而悔恨，也不会因碌碌无为而羞愧。

05-07

773

1. 发展历程 Seq2Seq在2014年顶会正式被提出，其中在同一年有两篇文章都用到了序列到序列，编码器解码器的方式实现机器翻译。其中GPU也在2014年被提出。在2015年，针对Seq2Seq的一些问题，提出了注意力Attention机制，已经逐步开始爆发。在2017年，谷歌发表了一篇Attention is All you need，将注意力机制推到了顶峰，其中也有学者用Self-Attention来替代cnn和Rnn 2. 基础理解 2.1 基础的神经网络传统的单层神经网络，就是传入一个输出

模型汇总16 各类Seq2Seq模型对比及《Attention Is All You Need》中技术详解

lqfarmer的博客

06-20

8477

1、已有Seq2Seq模型 Seq2Seq模型是处理序列到序列问题的利器，尤其是在神经网络翻译（NMT）方面，取得了很大的成功。Seq2Seq由一个encoder和一个decoder构成，encoder把观测样本X编码成一个固定长度的隐变量Z，decoder再把隐变量Z解码成输出标签Y[1]。传统的Seq2Seq模型把观测样本编码成一个固定长度的隐变量Z，这个操作被认为限制了Seq2Seq模型的

Seq2Seq Attention(这三篇就够了，精心发掘整理)

weixin_44305115的博客

09-25

1767

作为知识的搬运工，这里介绍三篇我认为关于Seq2Seq Attention,Transformer写的比较好的博客，都是出自知乎大神，特将它们搬运到CSDN。第一篇是真正的完全图解Seq2Seq Attention模型和 Transformer模型笔记文章的点赞数达到了500+ 作者是哥大+悉尼大学的小姐姐，知乎里只有6篇文章，但是偏偏质量都很高。后两篇同样是知乎上的，不过是一个公共号 ...

seq2seq模型_CS224n笔记[7]:整理了12小时，只为让你20分钟搞懂Seq2seq

weixin_39679370的博客

11-27

259

CS224n笔记[7]:机器翻译和seq2seq作者：郭必扬今天主要介绍机器翻译的简单发展历史和方法，由此引入seq2seq框架，我们会一起深入讨论seq2seq框架中的各种细节，并配合精美的结构图、流程图辅助大家理解。本文约5000字，阅读约20分钟目录：机器翻译传统机器翻译，SMT神经机器翻译，NMTSeq2seq Seq2seq结构详解为什么训练和预测时的Decoder不一样？Seq2se...

深度学习项目实战-Seq2Seq序列生模型

07-21

购买课程后，添加小助手微信（微信号：csdn500）回复【唐宇迪】进入学习群，获取唐宇迪老师答疑课程首先讲解Seq2Seq原理以及应用，从机器翻译入手讲解Seq2Seq模型发展以及现阶段的应用。基于Tensorflow演示如何应用seq2seq网络进行实际任务的建模与分析。

NLP之Seq2Seq