Convolutional Neural Network for Sentences Classification 笔记

最新推荐文章于 2025-04-25 15:24:01 发布

Jason24_Zeng

最新推荐文章于 2025-04-25 15:24:01 发布

阅读量234

点赞数

分类专栏： DL 文章标签：人工智能神经网络算法深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Jason24_Zeng/article/details/109016819

版权

DL 专栏收录该内容

9 篇文章

订阅专栏

Convolutional Neural Network for Sentences Classfication

文章特点

仅用一个很简单的拥有少数hyperpamater tuning and static vectors 的CNN, 就提高了七个任务中的四个SOA(state of the art)，其中包括sentiment analysis and question classification.
四个model:
2.1 CNN-rand: 基准model, 里面的字随机初始化成向量vector $x_i \in\mathcal{R}^k$ ，通过训练去调整，也就是所有的字其实都是要训练的parameter，个人认为这个需要很大的数据训练，所以这个model必然overfit. 这一系列的向量自称一条长为n的句子，如果每个字代表一个长为 $k$ 的行向量，则可将整个句子写成一个 $k\times n$ 的矩阵。Convolution filter $\in \mathcal{R}^{hk}$ ，即每个feature $c_i$ 应该与h个连续单词(将这些单词写作 $x_{i:i+h-1}$ ,意即取了矩阵中的第 $i$ 到 $i + h - 1$ 行)有关，这个想法在某个方面上很像Local Attention mechanism. 公式为 $c_i = f(\mathbf{w\cdot x}_{i:i+h-1} + b)$ . 如果将这个filter运用到整个矩阵上, stride 为1的话，就可以产生feature map $\mathbf{c} = [c_1,c_2,...,c_{n-h+1}]$ ，其中 $c\in \mathcal{R}^{n-h+1}$ . 然后运用max-over-time pooling operation在这产生的feature map中取最大值， $\hat{c} = \max\{\mathbf{c}\}$ . 这个地方的目的其实是因为如果我们的filters有不同的 $h$ : variable sentence length，这样我们最后得到的也能是一个向量，长度是filters的数量，否则可能每个output channel维度都不同。所以一个filter最后实际产生一个feature。将所有filters产生的features形成一个penultimate layer(没想到倒数第二层也能有自己的名字)，而后通过一个full connected softmax layer,输出是labels的概率分布。
(这里应该是2.2与2.3的内容哈哈哈)如下图所示，某个模型有两个channel: static channel 和 non-static channel，前者vectors保持固定，后者通过backpropagation进行微调。每个filter都要应用到两个channels上并且结果也要用于计算 $c_i$ 的计算（感觉这里和其他的CNN不同，因为一般channels的number应该是和kernel的深度一致，但这里似乎没有，仿佛是分开计算的一样，可能我这里理解错了）。每个model都不可避免需要做regularization, 本文用了dropout在penultimate layer (with a constraint on $l_2$ =norms of the weight vector)。通过随机的dropout的好处是防止hidden units的co-adaption(个人理解相当于参数之间的相关性，免得有一些参数其实最后变化永远都是一起变化的)。
具体做法：已知penultimate layer $\mathbf{z} = [\hat{c}_1,...,\hat{c}_m]$ ，我们用 $\mathbf{w}\cdot(\mathbf{z}\odot \mathbf{r}) + b$ ，而不是 $\mathbf{w}\cdot\mathbf{z} + b$ . $\odot$ 是element-wise multiplication operator, 它就像一个mask,对其中的元素有概率为 $p$ 遮住不让它传到下一层。

2.2 CNN-static: 一个运用预训练得到的向量word2vec. 所有的词，包括未知的（被随机初始化），在训练过程中保持不变，并且只有其他参数进行学习。
2.3 CNN-non-static: 与CNN-static很相似，只是在训练过程中，每次任务可以微调这些vectors,
2.4 CNN-multichannel: 这个模型把word vectors弄两个set(里面初始的vector应该是一致的)，每个filter都对两个channel同时工作，但是 gradients 只backpropagated 其中一个channel,也就是只微调其中一个channel的参数，但保持另一个的参数。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。