NLP教程
TF_IDF
词向量
句向量
Seq2Seq 语言生成模型
CNN的语言模型
语言模型的注意力
Transformer 将注意力发挥到极致
ELMo 一词多义
GPT 单向语言模型
BERT 双向语言模型
NLP模型的多种应用
机器怎么理解句子一直是一个难题,以前有人尝试用句子中出现的词语频率来表达这个句子的含义(TF-IDF)。 也有人想把句子中的词语先向量化,然后再叠加句子中所有向量化的词语来表达一句话。 这些的确都是一种计算机表达句子含义的方式,但是不一定会非常准确。因为他们都只是一种对词语理解的简单加工方式,有的忽略了词语的表达顺序, 有的忽略了词语的组合模式。这往往导致计算机不能非常准确的理解句子。
后来随着深度学习的快速发展,我们也能利用像循环神经网络或者自注意力这样的机制,去用模型直接理解整个句子,最终实现了End-to-End的句子理解。 如果用一句话来说明这样技术的核心,我会这样描述:向量表示是深度学习成功的关键。对句子的理解,就是在多维空间中给这个句子安排一个合适的位置。
每一个空间上的点,就代表了计算机对事物的某种理解。我们再将空间信息转换成其他信息,就能完成对这个句子理解后的应用了。
什么是Encoder和Decoder
在深度学习中,万物都可向量化,其中有两个问题:
- 怎么样从原始的数据变成向量数据
- 怎么样加工向量化的数据,将其变成各种其他的表达形式
上面这张图就诠释了这样的一个过程:
- 我们用
Encoder
将原始的我爱莫烦Python
转变成标准的向量表达; - 在用各种
Decoder
将向量化表达转变成其他的表达形式,其中就可以是翻译,图片,情感和对话。
所以从上面例子可以看出,Encoder
是一种压缩器,去繁从简,将最有用的特征给识别出来,用最简练的信息表达他们。 这一点在AutoEncoder
中也有很好的体现。 而Decoder
是解压器,但是它并不是将压缩好的信息还原,而是解压成另外一种形式,换一种表达方式。
翻译
在这节内容中,以翻译为例,将这种句子理解的Encoder
和Decoder
机制给大家贯穿一下。在翻译的这个例子中,我们有个更具体的名词, 叫做seq2seq
. 意思是将一个 sequence
转换成另一个 sequence
。也就是用Encoder
压缩并提炼第一个sequence
的信息,然后用Decoder
将这个信息转换成另一种语言。
秀代码
我使用一个非常简单,好训练的日期转换的例子来展示一下seq2seq的威力。需要实现的功能如下:
# 中文的 "年-月-日" -> "day/month/year"
"98-02-26" -> "26/Feb/1998"
我们将中文的顺序日期,转成英文的逆序日期,数据区间是20世纪后期到21世纪前期。 为了施加一些难度,在中文模式下,我不会告诉机器这是哪一个世纪,需要计算机自己去判断转成英文的时候是 20 世纪还是 21 世纪。
先来看训练过程, 其实也很简单,生成数据,建立模型,训练模型。
def train():
# 我已经帮大家封装了日期生成器代码
data = utils.DateData(4000)
# 建立模型
model = Seq2Seq(...)
# training
for t in range(1500):
bx, by, decoder_len = data.sample(32)
loss = model.step(bx, by, decoder_len)
最后你能看到它的整个训练过程。最开始预测成渣渣,但是后面预测结果会好很多。
t: 0 | loss: 3.289 | input: 96-06-17 | target: 17/Jun/1996 | inference: /2222222222
t: 70 | loss: 1.132 | input: 91-08-19 | target: 19/Aug/1991 | inference: 13/Mar/2001<EOS>
t: 140 | loss: 0.880 | input: 11-04-30 | target: 30/Apr/2011 | inference: 11/May/2003<EOS>
t: 210 | loss: 0.732 | input: 76-03-14 | target: 14/Mar/1976 | inference: 24/May/1988<EOS>
....
t: 910 | loss: 0.064 | input: 29-10-12 | target: 12/Oct/2029 | inference: 12/Oct/2029<EOS>
t: 980 | loss: 0.035 | input: 79-06-17 | target: 17/Jun/1979 | inference: 17/Jun/1979<EOS>
接着我们就来具体看看模型是怎样搭建的。首先第一步要搭建压缩器encoder
,有了encoder
就可以将原始的词向量按顺序组装起来变成句向量。 有了这个句向量之后才能进行decode
工作。
import tensorflow as tf
from tensorflow import keras
import numpy as np
import tensorflow_addons as tfa
class Seq2Seq(keras.Model):
def __init__(self, ...):
super().__init__()
self.units = units
# encoder
self.enc_embeddings = keras.layers.Embedding() # [enc_n_vocab, emb_dim]
self.encoder = keras.layers.LSTM(units=units, return_sequences=True, return_state=True)
...
def encode(self, x):
embedded