lecture11 - ConvNets for NLP

最新推荐文章于 2021-07-05 19:34:46 发布

劉北习

最新推荐文章于 2021-07-05 19:34:46 发布

阅读量170

点赞数

分类专栏： CS224n学习笔记自然语言处理

本文链接：https://blog.csdn.net/anfanger_z/article/details/104117155

版权

自然语言处理同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

CS224n学习笔记

6 篇文章 0 订阅

订阅专栏

主要内容

课程内容

课程内容

卷积神经网络简介(Convolutional Neural Networks)

网络具体的细节许多博客都有所记载了，这里想记录一下在NLP的应用中比较不同的概念：
首先是池化层(Pooling)，一般来说，在传统的CV应用中，池化作为一种下采样技术，通常有Max Pooling/Average Pooling。但是在下面即将提到的模型中，通常使用的池化层有Max Over-Time Pooling/Avg Over-Time Pooling/K-Max Over-Time Pooling，原本的Max Pooling则称为Local Max Pooling。
CV中的padding操作通常针对整张图片的长宽两个维度，在NLP中，padding是给序列填充TOKEN，从图片的视角去看就是仅在一个维度进行padding。

卷积神经网络在自然语言处理的应用(CNNs in NLP)

在NLP领域，相比于常见的RNN，CNN还是有其自身的特点的。Manning在课上说了几点：
首先，CNN将序列划分为独立的几个子序列，每一次信息提取不需要关注到前面序列的所有信息。
在某些任务中，这种独立性可能会有比较好的效果，例如文本分类(Text Classification)，因为一个序列中可能表明情感倾向的可能仅有几个词，因此，将包含这些词的子序列独立看待理应比编码所有序列信息能得到更多的情感信息。
同时， RNN在不使用Attention机制的时候会受到序列最后的单词影响较大，用于编码整个句子的隐状态会很受最后一个词的影响。

数据预处理(Preprocessing)

我们知道，经过卷积操作，序列会被压缩，变短，于是，为了保持原有的序列长度，保留更多的句子信息，我们会对句子进行padding。使其卷积后序列长度保持不变：
在这里插入图片描述
可以看到我们添加了两个空TOKEN，均使用零向量初始化。假定使用Kernal_size为3的filter进行卷积操作。
卷积后的序列长度由下式可得：
$C o n v S e q = (S e q L e n g t h - f i l t e r S i z e + 1)$
代入计算后，序列仍然长度为7，与真正的序列长度保持一致。

池化层(Pooling)

池化层单拿出来说是因为这节课上variants比较多的就是它了，逐个说一下：
1、Max Over-Time Pooling
不太清楚为啥叫这个名字，这种池化操作就是在filter卷积后，取每个通道的最大值，一个直观的理解是，最大的值代表这个通道最强的特征，我们知道，filter的数量决定了feature map的通道数，可以认为每个通道捕捉到序列不同的语义信息。这样，池化后的feature map形状大小为[filter数量,1]。
在这里插入图片描述
2、Avg Over-Time Pooling
基本做法与1一样，只不过这个是取每个通道中的均值。

3、K-Max Over-Time Pooling
顾名思义，K-Max代表每一次保留每个feature map前K个最大值。

4、dilated convolution
这种卷积将不连续的单词作为输入进行卷积，可以用较小的filter捕捉到大范围的特征。
在这里插入图片描述
如上图所示，将1，3，5行作为卷积对象，得到feature map，2，4，6行同理。

网络模型

Simple CNN for Classification

这是一个比较简单的模型结构，一个浅层的CNN。
在这里插入图片描述
图上讲得很清楚，句子使用预训练的词向量表示，文章中句子是双通道的，其中一个通道保持冻结，另外一个通道的词向量则继续训练。
filter有三个尺寸，并且该模型仅有一个卷积层，池化层使用Max Over-Time Pooling，最后所有feature map被放进全连接层然后加上softmax输出分类结果。