NLP教程笔记:CNN的语言模型

NLP教程

TF_IDF
词向量
句向量
Seq2Seq 语言生成模型
CNN的语言模型
语言模型的注意力
Transformer 将注意力发挥到极致
ELMo 一词多义
GPT 单向语言模型
BERT 双向语言模型
NLP模型的多种应用


一想到用深度学习解决语言问题,我们自然而然的就能想到使用循环神经网络RNN这一系列的模型。 而像CNN这种专注于图像处理的模型在语言领域也能胜任吗?答案是可以的。

而这次,我们就尝试使用一种CNN模型,把文字描述转化成向量表达。用一句话来概括这个CNN语言模型,我想可以这样说: 用N个不同长度时间窗口,以CNN的卷积方法在句子中依次滑动,让模型拥有N种阅读的眼界宽度,综合N种宽度的信息总结出这句话的内容

怎么卷积

上次我们提到了Encoder Decoder的概念, 这次的CNN语言模型重视的是怎么样使用CNN当做文字内容提取的Encoder。

CNN最擅长的事就是卷积,但是相比图像中的卷积,在句子中的卷积起到的作用是特殊的,学者想利用CNN去利用不同长度的卷积核去观察句子中不同长度的局部特征。 然后CNN对句子的理解就是不同长度的局部特征拼凑起来的理解。

比如:

  • 卷积核A两个两个字一起看;
  • 卷积核B三个三个字一起看;
  • 卷积核C四个四个字一起看;

卷积核ABC利用自己看句子的独特视角,能够提炼出对句子不同的理解,然后如果再汇集这些不同理解,就有了一个对句子更加全面的理解。

翻译

在这节内容中,还是以翻译为例。有了上次Seq2Seq 的经验,我们知道在翻译的模型中,实际上是要构建一个Encoder,一个Decoder。 这节CNN做文字翻译的内容中,我们更关注的是用CNN的方法来做Encoder,让计算机读懂句子,至于Decoder,我们还是使用Seq2Seq当中的RNN Decoder来实现。

秀代码

我使用一个非常简单,好训练的日期转换的例子来展示一下CNN的语言理解能力。需要实现的功能如下:

# 中文的 "年-月-日" -> "day/month/year"
"98-02-26" -> "26/Feb/1998"

我们将中文的顺序日期,转成英文的逆序日期,数据区间是20世纪后期到21世纪前期。 为了施加一些难度,在中文模式下,我不会告诉机器这是哪一个世纪,需要计算机自己去判断转成英文的时候是 20 世纪还是 21 世纪。

先来看训练过程, 其实也很简单,生成数据,建立模型,训练模型。

def train():
    # 我已经帮大家封装了日期生成器代码
    data = utils.DateData(4000)
    
    # 建立模型
    model = CNNTranslation(...)

    # training
    for t in range(1500):
        bx, by, decoder_len = data.sample(32)
        loss = model.step(bx, by, decoder_len)

最后你能看到它的整个训练过程。最开始预测成渣渣,但是后面预测结果会好很多。不过最后这个CNN的模型可能是应为参数量还不够大的关系, 预测并不是特别准确,不过将就能用~

t:  0 | loss: 3.293 | input:  96-06-17 | target:  17/Jun/1996 | inference:  /////1///99
t:  70 | loss: 1.110 | input:  91-08-19 | target:  19/Aug/1991 | inference:  03/Feb/2013<EOS>
t:  140 | loss: 0.972 | input:  11-04-30 | target:  30/Apr/2011 | inference:  10/Sep/2001<EOS>
t:  210 | loss: 0.828 | input:  76-03-14 | target:  14/Mar/1976 | inference:  16/May/1977<EOS>
...
t:  1400 | loss: 0.183 | input:  86-10-14 | target:  14/Oct/1986 | inference:  14/Oct/1986<EOS>
t:  1470 | loss: 0.151 | input:  18-02-08 | target:  08/Feb/2018 | inference:  05/Feb/2018<EOS>

这节内容最重要的代码内容就在下方,我们动手搭建一下它的Encoder部分。为本节的例子,我们使用3个Conv2D的卷积层,这三个对不同长度的局部信息做卷积, 所以他们的结构都不一样,然后再用MaxPool2D去将他们归一化到同一dimension。这样就可以将最后的所有局部信息汇总,加工成句向量了。

import tensorflow as tf
from tensorflow import keras
import numpy as np
import tensorflow_addons as tfa

class CNNTranslation(keras.Model):
    def __init__(self, ...):
        super().__init__()

        # encoder
        self
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值