一种基于CNN的自动化提取n-gram feanture的文本分类模型

最新推荐文章于 2023-12-14 09:09:28 发布

guoyuhaoaaa

最新推荐文章于 2023-12-14 09:09:28 发布

阅读量3.5k

点赞数 2

分类专栏：深度学习

本文链接：https://blog.csdn.net/guoyuhaoaaa/article/details/81842767

版权

深度学习专栏收录该内容

69 篇文章 11 订阅

订阅专栏

今天写的博客主要参考了清华大学黄民烈老师团队2018年在IJCAI上发表的paper《Densely Connected CNN with Multi-scale Feature Attention for Text Classification》。
这篇paper其实就是使用基于CNN的网络来进行文本的情感分类，但是它针对的问题是传统的多层次的CNN网络使用static窗口来进行卷积，每次针对句子中提取n-gram feature 都是一样的，如果遇到以下例子，就会影响模型的准确性：
这里写图片描述
在该样例中，不管是单纯的1-gram还是3-gram都不太合适：针对“nice”这个单词需要1-gram，但是针对“without being patronizing”这个词组需要3-gram。如何设计模型，让其能够自动地识别这种区别，是这篇paper主要解决的问题。

在正式介绍模型之前，作者提出了“a deeper model is more elegant than a wider solution”。因为使用小窗口的deeper model在模型高层次部分，其卷积器真正观测到的原始句子序列中的视野是越来越大的。于是，参照在图像处理中常见的一种结构，作者设计了一种网络结构如下所示：
这里写图片描述
左边是模型的逻辑运作示意图，右边是模型的真实实现示意图。其实图中最需要关注的就是那几条红线。假设模型的层次一共是 $l$ 层，那么第 $l$ 层结果计算公式如下所示：
$X_l=f(W_l,[X_1,X_2,.......X_{l-1}])$
其中参数矩阵 $W_l$ 维度为 $W_l \in R^{(l-1)*k*w*k}$ ，其中w代表了宽度，一个k代表了卷积器的个数，一个k代表了中间词向量的维度。可以看出这里面 $X_1$ , $X_2$ … $X_{l-1}$ 都是维度为 $m * k$ 的矩阵， $m$ 代表了句子中单词的个数。在使用卷积处理之后，结果依然是 $l - 1$ 个维度为 $m * k$ 结果矩阵，然后使用矩阵的对位相加操作得当最终的 $X_l$ 为 $m * k$ 。

按照这样的计算方式，最终模型的输出层有 $X_1,X_2....X_l$ ，每一个矩阵的每一行都代表了以该行号为下标的n-gram，接下来就是设计一种attention从中选择对分类最有意义的n-gram。整个过程如下图所示：
这里写图片描述

假设 $x_l^i \in R^k$ 代表第l层下标为i的语义向量，设 $s_l^i=\sum_{j=1}^k x_l^i(j)$
$x_{atten}^i=\sum_{l=1}^L \alpha_l^i x_l^i$
其中 $alpha^i=softmax(MLP(s^i))$
$s^i=[s^i_1,s^i_2,....s^i_L]$
$\alpha^i=[\alpha_1^i,\alpha_2^i,.....\alpha_L^i]$
最终句子的表征为 $X_{atten}=[x_{atten}^1,x_{atten}^2,.....,x_{atten}^m]$ 。接下来得到的 $X_{atten}$ 会送入到后续的处理模型中。