NLP-分类模型-2014-文本分类：TextCNN【使用 “CNN”+ 预训练的 “词向量” --＞处理 “句子级别” 的文本分类】

u013250861

已于 2022-05-23 14:53:03 修改

阅读量1k

点赞数

分类专栏： # NLP/文本分类文章标签：神经网络 TextCNN 文本分类

于 2021-05-05 00:24:15 首次发布

本文链接：https://blog.csdn.net/u013250861/article/details/116407538

版权

本文详细介绍了TextCNN模型，这是一种应用于文本分类的深度学习模型，利用预训练词向量和卷积神经网络实现句子级别的分类。TextCNN通过卷积和最大池化操作提取特征，其优势在于模型简单、训练速度快且效果良好。文章还讨论了模型的防止过拟合策略，并提及TextCNN在NLP领域的应用和影响。

摘要由CSDN通过智能技术生成

《TextCNN 原始论文：Convolutional Neural Networks for Sentence Classification》

一、概述

1、TextCNN 是什么？

我们之前提前CNN时，通常会认为是属于CV领域，用于计算机视觉方向的工作，但是在2014年，Yoon Kim针对CNN的输入层做了一些变形，提出了文本分类模型textCNN。与传统图像的CNN网络相比, textCNN 在网络结构上没有任何变化(甚至更加简单了), 从图一可以看出textCNN 其实只有一层卷积,一层max-pooling, 最后将输出外接softmax 来n分类。

在这里插入图片描述

在这里插入图片描述
与图像当中CNN的网络相比，textCNN 最大的不同便是在输入数据的不同：

图像是二维数据, 图像的卷积核是从左到右, 从上到下进行滑动来进行特征抽取。
自然语言是一维数据, 虽然经过word-embedding 生成了二维向量，但是对词向量做从左到右滑动来进行卷积没有意义. 比如 “今天” 对应的向量[0, 0, 0, 0, 1], 按窗口大小为 $1 \times 2$ 从左到右滑动得到[0,0], [0,0], [0,0], [0, 1]这四个向量, 对应的都是"今天"这个词汇, 这种滑动没有帮助。

TextCNN的成功, 不是网络结构的成功, 而是通过引入已经训练好的词向量来在多个数据集上达到了超越benchmark 的表现，进一步证明了构造更好的embedding, 是提升NLP各项任务的关键。

2、TextCNN 的优势

TextCNN最大优势网络结构简单 ,在模型网络结构如此简单的情况下，通过引入已经训练好的词向量依旧有很不错的效果，在多项数据数据集上超越benchmark。
网络结构简单导致参数数目少, 计算量少, 训练速度快，在单机单卡的v100机器上，训练165万数据, 迭代26万步，半个小时左右可以收敛。

二、TextCNN 模型

1、分词&构建词向量

如下图所示, textCNN 首先将 “今天天气很好,出来玩” 分词成"今天/天气/很好/，/出来/玩, 通过word2vec或者GLOV 等embedding 方式将每个词成映射成一个5维(维数可以自己指定)词向量, 如 “今天” -> [0,0,0,0,1], “天气” ->[0,0,0,1,0], “很好” ->[0,0,1,0,0]等等。

在这里插入图片描述
这样做的好处主要是将自然语言数值化，方便后续的处理。

从这里也可以看出不同的映射方式对最后的结果是会产生巨大的影响;
NLP 当中目前最火热的研究方向便是如何将自然语言映射成更好的词向量。
我们构建完词向量后，将所有的词向量拼接起来构成一个6*5的二维矩阵，作为最初的输入。

2、Convolution 卷积

在这里插入图片描述
卷积是一种数学算子。我们用一个简单的例子来说明一下：

step.1 将 “今天”/“天气”/“很好”/“,” 对应的 $4 \times 5$ 矩阵与卷积核做一个point wise 的乘法然后求和, 便是卷积操作：

$\begin{aligned} FeatureMap[0] &= 0×1 + 0×0 + 0×1 + 0×0 + 1×0 \quad (第一行)\\ &+ 0×0 + 0×0 + 0×0 + 1×0 + 0×0 \quad (第二行)\\ &+ 0×1 + 0×0 + 1×1 + 0×0 + 0×0 \quad(第三行)\\ &+ 0×1 + 1×0 + 0×1 + 0×0 + 0×0 \quad (第四行)\\ &= 1 \end{aligned}$

step.2 将窗口向下滑动一格(滑动的距离可以自己设置),“天气”/“很好”/“,”/“出来” 对应的4*5 矩阵与卷积核(权值不变) 继续做point wise 乘法后求和

$\begin{aligned} FeatureMap[1] &= 0×1 + 0×0 + 0×1 + 1×0 + 0×0 \quad (第一行)\\ &+ 0×0 + 0×0 + 1×0 + 0×0 + 0×0 \quad (第二行)\\ &+ 0×1 + 1×0 + 0×1 + 0×0 + 0×0 \quad(第三行)\\ &+ 1×1 + 0×0 + 0×1 + 0×0 + 0×0 \quad (第四行)\\ &= 1 \end{aligned}$

最低0.47元/天解锁文章

u013250861

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
NLP-分类模型-2014-文本分类：TextCNN【使用 “CNN”+ 预训练的 “词向量” --＞处理 “句子级别” 的文本分类】

《TextCNN 原始论文：Convolutional Neural Networks for Sentence Classification》一、概述1、TextCNN 是什么？我们之前提前CNN时，通常会认为是属于CV领域，用于计算机视觉方向的工作，但是在2014年，Yoon Kim针对CNN的输入层做了一些变形，提出了文本分类模型textCNN。与传统图像的CNN网络相比, textCNN 在网络结构上没有任何变化(甚至更加简单了), 从图一可以看出textCNN 其实只有一层卷积,一层max-
复制链接

扫一扫