神经网络在文本分类中的应用

最新推荐文章于 2022-08-18 15:24:16 发布

littlely_ll

最新推荐文章于 2022-08-18 15:24:16 发布

阅读量5.8k

点赞数 1

分类专栏：自然语言处理深度学习自然语言处理文章标签：自然语言处理文本分类 CNN RNN

本文链接：https://blog.csdn.net/littlely_ll/article/details/79151403

版权

在自然语言的文本分类中，主要使用两类模型，一类是使用传统的机器学习模型，如朴素贝叶斯，最大熵，支持向量机等，第二类就是使用神经网络模型，包括CNN和RNN。传统的机器模型在分类前首先要做特征工程，例如把文本转换成词袋，并转化为TF-IDF矩阵，然后再做分类。而使用神经网络模型可以使它自己提取特征并进行文本分类，并能获得优于传统机器学习模型的能力。

CNN模型的文本分类

CNN原来是用于对图像分类，后来按照其形式用到了对自然语言处理上，处理原理相同，首先是对句子的每一个词生成一个实值的词向量，然后按照句子合并成一个词向量矩阵，这个词向量矩阵就相当于一个图像的像素，剩下的就如同图像处理一样，使用卷积核进行卷积以及进行池化等。
Kim使用了CNN对句子进行分类。具体模型形式如下：
这里写图片描述

让 $x_i\in R^k$ 为一个句子中第 $i$ 个单词的词向量，向量维度为 $k$ ，句子的长度为 $n$ ，则整个句子的向量为：
$x_{1:n} = x_1\oplus x_2\oplus\cdots\oplus x_n\tag{1}$
其中， $\oplus$ 为连接算子，则 $x_{1:n}$ 的维度为 $n k$ 。
让 $x_{i:i+j}$ 为词向量 $x_i,x_{i+1},\cdots,x_{i+j}$ 的连接，卷积核为 $w\in R^{hk}$ ，其中， $h$ 为卷积的窗口大小，则从窗口中的词向量产生的特征 $c_i$ 为：
$c_i=f(w\cdot x_{i:i+h}+b)\tag{2}$
其中， $b\in R$ 为偏置， $f$ 为非线性函数，例如 $t a n h$ 等。然后，卷积核应用于句子的每个可能的窗口 $\{x_{1:h},x_{2:h+1},\cdots,x_{n-h+1:n}\}$ ，产生一个特征图：
$[c_1,c_2,\cdots,c_{n-h+1}]\tag{3}$
其中， $c\in R^{n-h+1}$ 。然后对特征图进行最大池化操作来获取最重要的特征 $\hat c=max\{c\}$
为了获取多个特征可以使用多个卷积核。Kim使用了2个通道，每个通道用2个卷积核，这样共生成4个特征图。这两个通道中，一个是在训练中保持不变，即词向量是不变的，另一个通道在训练中通过后向传播对词向量进行修正。
Kim对最大池化层进行了dropout正则化，假设得到的最大池化层为 $z=[\hat c_1, \cdots, \hat c_m]$ ，则前向传播中，dropout使用：
$w\cdot(z\circ r)+b\tag{4}$
其中， $\circ$ 为按元素乘积， $r\in R^m$ 为以概率 $p$ 为1的Bernnoulli随机变量，此向量又被称为“遮盖向量”，也就是在梯度后向传播中不经过这些遮盖住的单元。在测试的时候，学习权重变为 $\hat w = pw$ ，这个 $\hat w$ 用于预测新的句子。Kim又对 $w$ 做了约束为 $w||_2=s$

最低0.47元/天解锁文章

littlely_ll

关注

1
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
神经网络在文本分类中的应用

在自然语言的文本分类中，主要使用两类模型，一类是使用传统的机器学习模型，如朴素贝叶斯，最大熵，支持向量机等，第二类就是使用神经网络模型，包括CNN和RNN。传统的机器模型在分类前首先要做特征工程，例如把文本转换成词袋，并转化为TF-IDF矩阵，然后再做分类。而使用神经网络模型可以使它自己提取特征并进行文本分类，并能获得优于传统机器学习模型的能力。CNN模型的文本分类CNN原来是用于对图
复制链接

扫一扫