【DPCNN】文本分类网络学习

本文详细介绍了DPCNN(深度金字塔卷积神经网络)的结构和特性,包括区域嵌入、等长卷积、短路连接以及下采样策略。DPCNN通过固定特征图数量的下采样来捕捉远程依赖,并利用预激活的短路连接促进深层网络训练。此外,无监督嵌入增强了文本区域的表示能力,提高了模型的准确性。网络结构呈现深度金字塔形状,适合处理长距离的上下文关系。
摘要由CSDN通过智能技术生成

DPCNN结构

第一层进行文本region embedding。将常用的词嵌入推广到覆盖一个或多个词的文本区域的嵌入。
作者将TextCNN的包含多尺寸卷积滤波器的卷积层的卷积结果称之为Region embedding,意思就是对一个文本区域/片段(比如3gram)进行一组卷积操作后生成的embedding:首先对3gram中的3个词的embedding取均值得到一个size=D的向量,然后设置一组size=D的一维卷积核对该3gram进行卷积(其中D是word embedding维度)

接着是卷积块的叠加(两个等长卷积和一个shortcut)
在这里提出等长卷积的含义:输出序列长度与输入序列长度相同,都为seq_len。
既然输入输出序列的位置数一样多,将输入输出序列的第n个embedding称为第n个词位,那么这时size为n的卷积核产生的等长卷积的意义就很明显了,那就是将输入序列的每个词位及其左右((n-1)/2)个词的上下文信息压缩为该词位的embedding,也就是说,产生了每个词位的被上下文信息修饰过的更高level更加准确的语义。所以可以适当的堆两层来提高词位embedding的表示的丰富性。

接着是步长为2的池化层

最后一个池层将每个文档的内部数据聚合到一个向量中
我们对所有池化层使用max pooling。

DPCNN的主要特性如下:
(1)在不增加特征图数量的情况下进行downsampling。downsampling可以有效地表示文本中的远程关联(以及更多的全局信息)。通过保持相同数量的特征图,步长为2的downsampling将减少一半的每一块计算,因此总的计算时间是有界的一个常数。
(2)预激活和身份映射的shortcut连接,以支持深层网络的训练。
(3)使用无监督嵌入增强文本区域嵌入(嵌入以一个无监督的方式进行训练),以提高准确性。

Downsampling with the number of feature maps fixed
每一个卷积块(两层的等长卷积)后,使用一个 size=3 和 stride=2 进行 maxpooling 进行池化。序列的长度就被压缩成了原来的一半。其能够感知到的文本片段就比之前长了一倍。在DPCNN中固定死了feature map的数量,也就是固定住了embedding space的维度(为了方便理解,以下简称语义空间),使得网络有可能让整个邻接词(邻接ngram)的合并操作在原始空间或者与原始空间相似的空间中进行(当然,网络在实际中会不会这样做是不一定的哦,只是提供了这么一种条件)。也就是说,整个网络虽然形状上来看是深层的,但是从语义空间上来看完全可以是扁平的。

Shortcut connections with pre-activation
为了使深度网络的训练成为可能,作者为了恒等映射,所以使用加法进行shortcut connections,即 z+f(z),其中 f 用的是两层的等长卷积。这样就可以极大的缓解了梯度消失问题

由于前面所述的1/2池化层的存在,文本序列的长度会随着block数量的增加呈指数级减少,这导致序列长度随着网络加深呈现金字塔(Pyramid)形状,因此作者将这种深度定制的简化版ResNet称之为Deep “Pyramid” CNN

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值