NLP-DPCNN详解

1.概述

DPCNN(Deep Pyramid Convolutional Neural Networksfor Text Categorization),是RieJohnson和腾讯AI-Lab等提出的一种深度卷积神经网络,可以称之为"深度金字塔卷积神经网络"。

文献中提出了一种基于word-level级别的网络——DPCNN。由于TextCNN不能通过卷积获得文本的长距离依赖关系,而论文中DPCNN通过不断加深网络,可以抽取长距离的文本依赖关系。实验证明在不增加太多计算成本的情况下,增加网络深度就可以获得最佳的准确率。‍

  DPCNN的深度与padding后的最大句子长度有关系,例如max_len=64=,即长度为64的句子只够5次pooling/2,因此DPCNN更加适合长文本。


2.背景

DPCNN设计的目的,一是提高准确率;二是在提高准确率的前提下,尽量的提升计算效率。

  文本分类是一个十分重要的任务,其应用场景包括垃圾邮件检测,情感和主题分类等。研究显示:深度为32层字符级CNN显示出优于深度为9层字符级CNN;非常浅的1层单词级CNN被证明比非常深的字符级CNN更加准确且快得多。结合这两点,对深度的单词级CNN进行探究,文献中提出了一种深度但低复杂度的网络架构,名为DPCNN(深度金字塔卷积神经网络)。

  DPCNN主要的特色是引入了残差结构,增加了多尺度信息,并且增加了用于文本分类CNN的网络深度,以提取文本中远程关系特征,并且并没有带来较高的复杂度。


3.DPCNN的特点

  1. 减采样的设计。每个block设计步长为2的池化操作,使得计算量减半,像一个金字塔的形状。并保持filter数目不变(默认250),省去维度匹配的计算时间,而且准确率不会受影响。研究发现下采样时增加feature map的数量除了白白增加了工作量以外,对提升准确率没有很大的帮助。

  1. 残差连接的设计。该结构仿照了resnet的shortcut的设计思路,并且将原有的卷积计算,修改为先将x进行激活,这样可以带来更好的效果。此外filter数目不变,可以省略维度匹配的时间。这种设计使得网络可以扩展为深层网络进行参数的训练。

  1. Region Embeeding层。该结构接在embedding层后面。DPCNN的embedding层是one-hot的形式。在region=k的范围内,对word进行线性映射,实质上相当于CNN+one-hot的实现。

  1. Block结构:在每个卷积块之后都用大小为3的feature map进行stride为2的max-pooling。这样可以得到相邻3个文本区域的之间特征表示,而且stride为2的pooling操作将每个文本的中间表示直接减少了一半,从而使得每个卷积层的计算复杂度直接减少一半。此外pooling操作使得卷积操作的有效覆盖面积加倍。


4.DPCNN模型结构

图中分别为DPCNN,TextCNN,ResNet模型结构

DPCNN主要的组成结构包括:

  1. Redion embedding层(文本区域嵌入层);

  1. 两个convolution block,每层block由两个固定卷积核为3的conv卷积函数构成,两个block构建的层可以pre-activation直接连接;

  1. Repeat结构,与上一层相似,只不过在conv之前、pre-activate之后增加了Max-polling层;

具体细节:

  1. 模型输入:输入词维度为[batch_size, seq_len];

  1. Region Embeeding层:

  将TextCNN的包含多尺寸卷积滤波器的卷积层的卷积结果称之为Region embedding,意思就是对一个文本区域/片段(比如3-gram)进行一组卷积操作后生成的embedding。

  此外为了进一步提高性能,还使用了tv-embedding (two-views embedding)进一步提高DPCNN的accuracy,也就是引入预训练的词向量

  经过embedding层,词向量维度为:[batch_size, seq_len, embedded_dim]

  1. 等长卷积层

首先交代一下卷积的的一个基本概念。一般常用的卷积有以下三类:
假设输入的序列长度为n,卷积核大小为m,步长(stride)为s,输入序列两端各填补p个零(zero padding),那么该卷积层的输出序列为(n-m+2p)/s+1。
(1)窄卷积(narrow convolution):步长s=1,两端不补零,即p=0,卷积后输出长度为n-m+1。
(2)宽卷积(wide onvolution):步长s=1,两端补零p=m-1,卷积后输出长度n+m-1。
(3)等长卷积(equal-width convolution):步长s=1,两端补零p=(m-1)/2,卷积后输出长度为n。如下图所示,左右两端同时补零p=1,s=3。

  等长卷积(equal-width convolution):步长s=1,两端补零p=(m−1)/2,卷积后输出长度为n(长度不变)。DPCNN模型中采用两层(+relu)每层均为250个尺寸为3的卷积核。

该层采用了pre-activation的做法,卷积运算是,而不是通常用的,这种“线性”简化了深度网络的训练

两层等长卷积可以提高词位embedding的表示的丰富性,经过两层的卷积之后,输出序列维度为:[batch_size, 250, seq_len - 3 + 1]

  1. Repeat结构:

  等长卷积后,固定feature maps的数量(减少计算量等),再进行池化。模型中的池化是在每个卷积块后结束之后,对特征合集做一个池化,池化用的是最大池化(pool_size=3,stride=2),使每个卷积核的维度减半,形成一个金字塔结构。序列的长度就被压缩成了原来的一半,其能够感知到的文本片段就比之前长了一倍。例如之前是只能感知3个词位长度的信息,经过1/2池化层后就能感知6个词位长度的信息。

残差连接:为了使深度网络的训练成为可能,使用加法进行shortcut connections,接近等值连接,不需要做任何的维度匹配工作。,其中f用的是两层的等长卷积,缓解了梯度消失问题

重复以上操作,直至序列长度等于1。

  最终该结构的输出维度为:[batch_size, 250, 1]。

  1. 全连接+softmax归一化。


整理:

https://www.elecfans.com/d/860421.html

https://blog.csdn.net/weixin_43886056/article/details/108359864

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值