NLP.TM[24] | TextCNN的个人理解

最新推荐文章于 2022-05-14 17:58:32 发布

机智的叉烧

最新推荐文章于 2022-05-14 17:58:32 发布

阅读量256

点赞数

本文链接：https://blog.csdn.net/baidu_25854831/article/details/103849816

版权

【NLP.TM】

本人有关自然语言处理和文本挖掘方面的学习和笔记，欢迎大家关注。

往期回顾：

TextCNN应该是NLP中非常经典的模型了，文本分类中他应该是深度学习方法的入门级方法，最近发现很多博客和github其实对Textcnn没有完全理解，内容上其实完全违背了作者的本意，不要把TextCNN简单地认为就是用了CNN而已，TextCNN之所以被称为一个里程碑式的工作，会因为它具有很多有意思的思路，不仅仅是用了CNN本身。我来和大家谈谈TextCNN论文里面提到的一些思路和细节。

参考文献放两个，一个是原作，另一个是我参考的博客。

Yoon Kim，Convolutional Neural Networks for Sentence Classification：原论文。
https://www.cnblogs.com/bymo/p/9675654.html：博客一篇。

TextCNN的主要思路

具体思路可以用下面一张图来表示：

这个还是非常明显的，做了embedding后，卷积层、最大池化层、全连接层，一气呵成，这个结构相信对深度学习的大家应该理解起来都不会太难。

但是，只理解到这一步绝对不能理解到TextCNN其中的内涵，毕竟论文虽然不长，但是上面几句话确实不需要很多篇幅。

深挖TextCNN中Trick

一维卷积

首先，这里的一维卷积，绝对不是指卷积核是一维的，卷积核的实质是一个x行y列的向量，尤其y，是指embedding词向量的维度，x经常在2-5之间。来看这个图，大家应该会更加清楚的。

这里为了简化，每个单词给了一个只有5维的词向量，后面分别是给了3种类型的卷积核，但是都有一个特点，就是他的列都和词向量一致，这就是一维卷积的核心，相当于要从整个词向量（玄学的说就是语义）抽取关键信息。

另一个关键点在于一个关键点在于，卷积的横向x行，这个行的实际含义可以理解为N-Gram的形式的信息抽取。

预训练模型和微调

在那个时代，word2vector是非常常用的预训练模型，预训练模型的优点就是可以利用外部数据，外部数据代表的是整体语境的含义，这就是预训练词汇的优势。但是，这个理解外部信息也是一个劣势，毕竟你的具体问题不是整体领域，而是某个垂直领域，这就导致你这里需要分析和取舍。更为夸张的，作者给出了4种处理预训练词向量的模式。

词向量直接用随机的。
固定的预训练词向量模型。
微调的预训练词向量模型。
多通道预训练词向量模型。

这里的多通道，最终使用的方法是一个通道是固定的预训练词向量模型，走卷积核等整个链路，预训练模型不跟着反向传播更新卷积，另一个通道预训练词向量模型也是走卷积等整个链路，但是预训练模型参数会跟着反向传播更新，两个链路在最大池化后concat起来一起做全连接得到最终分类结果。

那么，上面几个方案，具体那个好呢，作者是做了实验的：

其实可以感受到，随机的和固定模型的小伙都是靠后的，而多通道和微调在不同的数据下则比较接近，各有胜负。

所以，通过论文这个角度，用预训练模型，然后进行微调，性价比是最高的，多通道毕竟运算复杂度更高。

这里多通道和微调的结果接近的深层次原因还有待深入探究，个人认为很可能是因为这里面都包含了微调，毕竟微调和固定的结果差距很大，这里可能在concat后的全连接中，给了固定模型更低的权重，从而导致两者接近过接近。这个猜想做着同样做了一些的分析：

超参的细节

超参作者谈的不多，直接整了，这由于是作者自己尝试过的，所以我们可以作为参考，我们看看里面有没有一些trick吧。

卷积层的行用了3，4，5三种，代表的是三种N-Gram窗口大小，没用2，有点意思。（感觉这个中英文可能有差异）
随机失活用了0.5，个人感觉还不小。
L2正则，权重3.
batch size用了50。

机智的叉烧

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
NLP.TM[24] | TextCNN的个人理解

【NLP.TM】本人有关自然语言处理和文本挖掘方面的学习和笔记，欢迎大家关注。往期回顾：NLP.TM[18] | 搜索中的命名实体识别NLP.TM[19] | 条件随机场知识整理（超长文...
复制链接

扫一扫