NLP教程笔记：Seq2Seq 语言生成模型

最新推荐文章于 2024-09-04 01:15:21 发布

_APTX4869

最新推荐文章于 2024-09-04 01:15:21 发布

阅读量1.8k

点赞数

分类专栏： NLP

本文链接：https://blog.csdn.net/nanke_4869/article/details/113678524

版权

本文介绍了NLP中的Seq2Seq模型，通过讲解Encoder和Decoder的概念，阐述其在翻译任务中的作用。文章通过日期转换的例子展示了Seq2Seq模型的训练和预测过程，并探讨了训练策略的优化，如使用beam search提高预测质量。最后，预告了使用CNN作为Encoder的可能性。

摘要由CSDN通过智能技术生成

NLP教程

TF_IDF
词向量
 句向量
 Seq2Seq 语言生成模型
 CNN的语言模型
 语言模型的注意力
 Transformer 将注意力发挥到极致
 ELMo 一词多义
 GPT 单向语言模型
 BERT 双向语言模型
 NLP模型的多种应用

机器怎么理解句子一直是一个难题，以前有人尝试用句子中出现的词语频率来表达这个句子的含义（TF-IDF）。也有人想把句子中的词语先向量化，然后再叠加句子中所有向量化的词语来表达一句话。这些的确都是一种计算机表达句子含义的方式，但是不一定会非常准确。因为他们都只是一种对词语理解的简单加工方式，有的忽略了词语的表达顺序，有的忽略了词语的组合模式。这往往导致计算机不能非常准确的理解句子。

后来随着深度学习的快速发展，我们也能利用像循环神经网络或者自注意力这样的机制，去用模型直接理解整个句子，最终实现了End-to-End的句子理解。如果用一句话来说明这样技术的核心，我会这样描述：向量表示是深度学习成功的关键。对句子的理解，就是在多维空间中给这个句子安排一个合适的位置。

每一个空间上的点，就代表了计算机对事物的某种理解。我们再将空间信息转换成其他信息，就能完成对这个句子理解后的应用了。

什么是Encoder和Decoder

在深度学习中，万物都可向量化，其中有两个问题：

怎么样从原始的数据变成向量数据
怎么样加工向量化的数据，将其变成各种其他的表达形式

上面这张图就诠释了这样的一个过程：

我们用Encoder将原始的我爱莫烦Python转变成标准的向量表达；
在用各种Decoder将向量化表达转变成其他的表达形式，其中就可以是翻译，图片，情感和对话。

所以从上面例子可以看出，Encoder是一种压缩器，去繁从简，将最有用的特征给识别出来，用最简练的信息表达他们。这一点在AutoEncoder中也有很好的体现。而Decoder是解压器，但是它并不是将压缩好的信息还原，而是解压成另外一种形式，换一种表达方式。

翻译

在这节内容中，以翻译为例，将这种句子理解的Encoder和Decoder机制给大家贯穿一下。在翻译的这个例子中，我们有个更具体的名词，叫做seq2seq. 意思是将一个 sequence 转换成另一个 sequence。也就是用Encoder压缩并提炼第一个sequence的信息，然后用Decoder将这个信息转换成另一种语言。

seq2seq illustration

秀代码

我使用一个非常简单，好训练的日期转换的例子来展示一下seq2seq的威力。需要实现的功能如下：

# 中文的 "年-月-日" -> "day/month/year"
"98-02-26" -> "26/Feb/1998"

我们将中文的顺序日期，转成英文的逆序日期，数据区间是20世纪后期到21世纪前期。 为了施加一些难度，在中文模式下，我不会告诉机器这是哪一个世纪，需要计算机自己去判断转成英文的时候是 20 世纪还是 21 世纪。

先来看训练过程，其实也很简单，生成数据，建立模型，训练模型。

def train():
    # 我已经帮大家封装了日期生成器代码
    data = utils.DateData(4000)
    
    # 建立模型
    model = Seq2Seq(...)

    # training
    for t in range(1500):
        bx, by, decoder_len = data.sample(32)
        loss = model.step(bx, by, decoder_len)

最后你能看到它的整个训练过程。最开始预测成渣渣，但是后面预测结果会好很多。

t:  0 | loss: 3.289 | input:  96-06-17 | target:  17/Jun/1996 | inference:  /2222222222
t:  70 | loss: 1.132 | input:  91-08-19 | target:  19/Aug/1991 | inference:  13/Mar/2001<EOS>
t:  140 | loss: 0.880 | input:  11-04-30 | target:  30/Apr/2011 | inference:  11/May/2003<EOS>
t:  210 | loss: 0.732 | input:  76-03-14 | target:  14/Mar/1976 | inference:  24/May/1988<EOS>
....
t:  910 | loss: 0.064 | input:  29-10-12 | target:  12/Oct/2029 | inference:  12/Oct/2029<EOS>
t:  980 | loss: 0.035 | input:  79-06-17 | target:  17/Jun/1979 | inference:  17/Jun/1979<EOS>

接着我们就来具体看看模型是怎样搭建的。首先第一步要搭建压缩器encoder，有了encoder就可以将原始的词向量按顺序组装起来变成句向量。有了这个句向量之后才能进行decode工作。

import tensorflow as tf
from tensorflow import keras
import numpy as np
import tensorflow_addons as tfa

class Seq2Seq(keras.Model):
    def __init__(self, ...):
        super().__init__()
        self.units = units

        # encoder
        self.enc_embeddings = keras.layers.Embedding()  # [enc_n_vocab, emb_dim]
        self.encoder = keras.layers.LSTM(units=units, return_sequences=True, return_state=True)
        ...

    def encode(self, x):
        embedded