【DPCNN】文本分类网络学习

最新推荐文章于 2023-06-02 10:10:59 发布

Richle_蕊

最新推荐文章于 2023-06-02 10:10:59 发布

阅读量382

点赞数

分类专栏：模型学习

原文链接：https://blog.csdn.net/guleileo/article/details/87035446

版权

模型学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文详细介绍了DPCNN（深度金字塔卷积神经网络）的结构和特性，包括区域嵌入、等长卷积、短路连接以及下采样策略。DPCNN通过固定特征图数量的下采样来捕捉远程依赖，并利用预激活的短路连接促进深层网络训练。此外，无监督嵌入增强了文本区域的表示能力，提高了模型的准确性。网络结构呈现深度金字塔形状，适合处理长距离的上下文关系。

摘要由CSDN通过智能技术生成

DPCNN结构

第一层进行文本region embedding。将常用的词嵌入推广到覆盖一个或多个词的文本区域的嵌入。
作者将TextCNN的包含多尺寸卷积滤波器的卷积层的卷积结果称之为Region embedding，意思就是对一个文本区域/片段（比如3gram）进行一组卷积操作后生成的embedding：首先对3gram中的3个词的embedding取均值得到一个size=D的向量，然后设置一组size=D的一维卷积核对该3gram进行卷积（其中D是word embedding维度）

接着是卷积块的叠加（两个等长卷积和一个shortcut）
在这里提出等长卷积的含义：输出序列长度与输入序列长度相同，都为seq_len。
既然输入输出序列的位置数一样多，将输入输出序列的第n个embedding称为第n个词位，那么这时size为n的卷积核产生的等长卷积的意义就很明显了，那就是将输入序列的每个词位及其左右((n-1)/2)个词的上下文信息压缩为该词位的embedding，也就是说，产生了每个词位的被上下文信息修饰过的更高level更加准确的语义。所以可以适当的堆两层来提高词位embedding的表示的丰富性。

接着是步长为2的池化层

最后一个池层将每个文档的内部数据聚合到一个向量中
我们对所有池化层使用max pooling。

DPCNN的主要特性如下：
（1）在不增加特征图数量的情况下进行downsampling。downsampling可以有效地表示文本中的远程关联（以及更多的全局信息）。通过保持相同数量的特征图，步长为2的downsampling将减少一半的每一块计算，因此总的计算时间是有界的一个常数。
（2）预激活和身份映射的shortcut连接，以支持深层网络的训练。
（3）使用无监督嵌入增强文本区域嵌入（嵌入以一个无监督的方式进行训练），以提高准确性。

Downsampling with the number of feature maps fixed
每一个卷积块(两层的等长卷积)后，使用一个 size=3 和 stride=2 进行 maxpooling 进行池化。序列的长度就被压缩成了原来的一半。其能够感知到的文本片段就比之前长了一倍。在DPCNN中固定死了feature map的数量，也就是固定住了embedding space的维度（为了方便理解，以下简称语义空间），使得网络有可能让整个邻接词（邻接ngram）的合并操作在原始空间或者与原始空间相似的空间中进行（当然，网络在实际中会不会这样做是不一定的哦，只是提供了这么一种条件）。也就是说，整个网络虽然形状上来看是深层的，但是从语义空间上来看完全可以是扁平的。

Shortcut connections with pre-activation
为了使深度网络的训练成为可能，作者为了恒等映射，所以使用加法进行shortcut connections，即 z+f(z)，其中 f 用的是两层的等长卷积。这样就可以极大的缓解了梯度消失问题

由于前面所述的1/2池化层的存在，文本序列的长度会随着block数量的增加呈指数级减少，这导致序列长度随着网络加深呈现金字塔（Pyramid）形状，因此作者将这种深度定制的简化版ResNet称之为Deep “Pyramid” CNN