DPCNN分类模型

最新推荐文章于 2024-05-06 10:26:40 发布

Mark_Aussie

最新推荐文章于 2024-05-06 10:26:40 发布

阅读量365

点赞数

分类专栏： nlp 文章标签：深度学习

本文链接：https://blog.csdn.net/markaustralia/article/details/129933437

版权

nlp 专栏收录该内容

59 篇文章 3 订阅

订阅专栏

论文 Deep Pyramid Convolutional Neural Networks for Text Categorization 提出深层金字塔卷积网（DPCNN）是 word-level 的广泛有效的深层文本分类卷积神经网络，比 TextCNN（浅层CNN）性能明显提高。

TextCNN 不能通过卷积获得文本的长距离关系依赖，DPCNN 通过加深网络，可以抽取长距离的文本依赖关系，

region embedding：包含多尺寸卷积滤波器的卷积层的卷积结果，类似word embedding；对一个文本区域/片段（比如3gram）进行一组卷积操作后生成的embedding，即向通过embedding层将文本转为向量，该向量中每行对应一个词，再通过 region embedding (tex-cnn) 构建如 3-gram，4-gram，5-gram 的向量。

对 n-gram 卷积操作时有两种选择，一种是保留词序，即设置一组size=n*D 的二维卷积核对n-gram 卷积(D是word embedding维度)，另一种是不保留词序（即词袋模型），即先对n-gram中n个词的embedding取均值得到一个size=D的向量，设置一组size=D的一维卷积核对该n-gram进行卷积。TextCNN 使用了保留词序的做法，而DPCNN使用的是词袋模型的做法，DPCNN作者认为前者容易造成过拟合，后者的性能却跟前者差不多。

等长卷积：为捕获长距离信息，需要深层CNN，如果直接使用等长卷积堆等长卷积，会让每个词位包含越来越多，越来越长的上下文信息，但效率很低，但会让每个词位的embedding描述语义描述的更加丰富准确，这样可以适当的堆两层来提高词位embedding的表示的丰富性。

三类卷积：

设序列长度为n，卷积核大小为m，步长为s，输入序列两端各填补p个零(zero padding)，卷积层输出的序列为(n - m + 2p) / s + 1，

(1) 窄卷积：步长s=1，两端不补0，即p=0，卷积后输出长度为n-m+1

(2）宽卷积：步长s=1，两端补零p= m -1,卷积后输出长度为 n + m -1

(3) 等长卷积：步长s = 1,两端补零 p = (m-1)/2,卷积后输出长度为 n

池化：捕捉长距离依赖的，选用两层等长卷积提高embdding 的丰富性，然后使用downsampling（池化），在每一个卷积块(两层的等长卷积)后，使用一个 size=3 和 stride=2 的 maxpooling 池化，序列的长度就被压缩为原来的一半，感知的文本片段就比之前长了一倍。

固定filters数量：增加 filters 数量会导致总计算复杂度增加。DPCNN 通过对 filters 的数量修正，发现增加 filters 数量只会增加计算时间，没有提高精度。

        在表示好每个词位的语义后，很多邻接词或者邻接n-gram的词义是可以合并的，例如“小娟姐姐人不要太好”中的“不要”和“太好”虽然语义本来离得很远，但是作为邻接词“不要太好”出现时其语义基本等价为“很好”，这样完全可以把“不要”和“太好”的语义进行合并。合并的过程可以在原始的embedding space中进行的，毕竟原文中直接把“不要太好”合并为“很好”是很可以的哇，完全没有必要动整个语义空间。
        实际上，相比图像中这种从“点、线、弧”这种low-level特征到“眼睛、鼻子、嘴”这种high-level特征的明显层次性的特征区分，文本中的特征进阶明显要扁平的多，即从单词（1gram）到短语再到3gram、4gram的升级，很大程度上均满足“语义取代”的特性。而图像中就很难发生这种”语义取代“现象（例如“鼻子”的语义可以被”弧线“的语义取代嘛？）。
        因此DPCNN与ResNet 的区别是，DPCNN 固定了 filters 的数量，即固定了embedding space的维度，使得网络有可能让整个邻接词（邻接ngram）的合并操作在原始空间或与原始空间相似的空间中进行(实际中会不会这样做不一定，只是提供了一种条件)，整个网络虽然形状上来看是深层的，但是从语义空间上来看完全可以是扁平的。而ResNet则是不断的改变语义空间，使得图像的语义随着网络层的加深不断的跳向更高 level 的语义空间。

1/2池化层：文本序列的长度会随着block数量的增加呈指数级减少，

残差连接：初始化深度CNN时，各层权重都是初始化为一个很小的值，导致最开始的网络中，后续几乎每层的输入都是接近0，网络输出没意义，小权重也阻碍了梯度的传播，使得网络的初始训练阶段往往要迭代好久才能启动。
同时就算网络启动完成，由于深度网络中仿射矩阵（每两层间的连接边）近似连乘，训练过程中网络也非常容易发生梯度爆炸或弥散问题（权重非共享，深度CNN比RNN要好些）。

ResNet 中提出的残差连接是一种非常简单、合理、有效的解决方案。既然每个block的输入在初始阶段容易是0而无法激活，直接用一条线把region embedding层连接到每个block的输入乃至最终的池化层/输出层，这时 shortcut connection 由于连接到了各个block的输入（当然为了匹配输入维度，要事先经过对应次数的1/2池化操作），这时就相当于一个短路连接，即region embedding直接短路连接到了最终的池化层或输出层，DPCNN 就退化成了TextCNN，深度网络不好训练，就一层的TextCNN可是异常容易训练的，模型的起步阶段就是从TextCNN起步了，避免了深度CNN网络的冷启动问题了。
有了shortcut后，梯度就可以忽略卷积层权重的削弱，从shortcut一路无损的传递到各个block手里，直至网络前端，缓解了梯度消失问题。

参考：

Pytorch实现中文文本分类任务（Bert，ERNIE，TextCNN，TextRNN，FastText，TextRCNN，BiLSTM_Attention, DPCNN, Transformer） - 知乎

DPCNN 模型详解 - 知乎

从经典文本分类模型TextCNN到深度模型DPCNN - 知乎