Deep Pyramid Convolutional Neural Networks for Text Categorization阅读笔记

最新推荐文章于 2024-05-14 19:56:41 发布

Leokb24

最新推荐文章于 2024-05-14 19:56:41 发布

阅读量2.2k

点赞数

分类专栏：论文阅读文本分类论文阅读文章标签：文本分类 DPCNN

本文链接：https://blog.csdn.net/leo_95/article/details/89240430

版权

文章目录DPCNN模型结构等长卷积池化固定feature maps(filters)的数量Shortcut connections with pre-activationText region embedding实验数据集及预处理参数设置结果DPCNN与之前CNN模型相比, 加深了很多.通过不断加深网络，可以抽取长距离的文本依赖关系. 参考了ResNet结构.模型结构等长卷积首先交...

摘要由CSDN通过智能技术生成

文章目录

DPCNN

DPCNN

与之前CNN模型相比, 加深了很多.通过不断加深网络，可以抽取长距离的文本依赖关系. 参考了ResNet结构.

模型结构

等长卷积

首先交代一下卷积的的一个基本概念。一般常用的卷积有以下三类：

假设输入的序列长度为n，卷积核大小为m，步长(stride)为s,输入序列两端各填补p个零(zero padding),那么该卷积层的输出序列为(n-m+2p)/s+1。

窄卷积(narrow convolution): 步长s=1,两端不补零，即p=0，卷积后输出长度为n-m+1。
宽卷积(wide onvolution) ：步长s=1,两端补零p=m-1，卷积后输出长度 n+m-1。
等长卷积(equal-width convolution): 步长s=1,两端补零p=(m-1)/2，卷积后输出长度为n。如下图所示，左右两端同时补零p=1,s=3。

池化

那么DPCNN是如何捕捉长距离依赖的呢？Downsampling with the number of feature maps fixed。

作者选择了适当的两层等长卷积来提高词位embedding的表示的丰富性。然后接下来就开始 Downsampling (池化)。再每一个卷积块(两层的等长卷积)后，使用一个size=3和stride=2进行maxpooling进行池化。序列的长度就被压缩成了原来的一半。其能够感知到的文本片段就比之前长了一倍。

固定feature maps(filters)的数量

为什么要固定feature maps的数量呢? 许多模型每当执行池化操作时，增加feature maps的数量，导致总计算复杂度是深度的函数。与此相反，作者对feature map的数量进行了修正，他们实验发现增加feature map的数量只会大大增加计算时间，而没有提高精度。

固定了feature map的数量，每当使用一个size=3和stride=2进行maxpooling进行池化时，每个卷积层的计算时间减半(数据大小减半)，从而形成一个金字塔。

Shortcut connections with pre-activation

网络太深会有以下问题:

初始化CNN的时，往往各层权重都初始化为很小的值，这导致了最开始的网络中，后续几乎每层的输入都是接近0，这时的网络输出没有意义；
小权重阻碍了梯度的传播，使得网络的初始训练阶段往往要迭代好久才能启动；
就算网络启动完成，由于深度网络中仿射矩阵（每两层间的连接边）近似连乘，训练过程中网络也非常容易发生梯度爆炸或弥散问题。

所以, 论文参考ResNet, 采用Shorcut connection, 这样就可以极大的缓解了梯度消失问题.

另外, 在做卷积运算时, 作者采用了pre-activation的做法.也就是说, 卷积运算是

最低0.47元/天解锁文章

Leokb24

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
Deep Pyramid Convolutional Neural Networks for Text Categorization阅读笔记

文章目录DPCNN模型结构等长卷积池化固定feature maps(filters)的数量Shortcut connections with pre-activationText region embedding实验数据集及预处理参数设置结果DPCNN与之前CNN模型相比, 加深了很多.通过不断加深网络，可以抽取长距离的文本依赖关系. 参考了ResNet结构.模型结构等长卷积首先交...
复制链接

扫一扫