基于CNN的文本情感分析

最新推荐文章于 2024-03-22 20:38:03 发布

Petrichoryi

最新推荐文章于 2024-03-22 20:38:03 发布

阅读量4.1k

点赞数 2

分类专栏：数据挖掘文章标签：深度学习神经网络

原文链接：https://blog.csdn.net/u010960155/article/details/104077211

版权

数据挖掘专栏收录该内容

5 篇文章 2 订阅

订阅专栏

情感分析是自然语言处理中很常见的任务，它的目的是识别出一段文本潜在的情感，是表扬还是批评，是支持还是反对。比如我们可以使用情感分析去分析社媒的评论，从而得到网友对某件事的看法，进一步分析可以得到舆论的趋势。
情感分析的本质是一个文本分类的任务，在这里我们实现了一个CNN网络对IMDB数据集进行情感分析.
完整代码
本文转自https://blog.csdn.net/u010960155/article/details/104077211

文章目录

一、IMDB数据集

Large Moive Review Dataset通常指的就是IMDB数据集，这是由斯坦福的研究者收集自网站IMDB。这个数据集其实就是一些对电影的评论，一共包含两类，积极的评论（positive）和消极的评论（negative）。其中训练集和测试集各有25000条数据。

二、CNN情感分析

深度学习在NLP任务中有很广泛的作用，那怎样将CNN应用于情感分析呢？因为情感分析本质就是一个文本分类的任务，在这里我们使用一个经典的用于文本分类的CNN架构，如下图所示。
首先使用一维卷积，所谓一维卷积就是尺寸为window size * embedding dimension的卷积。window size=词的数量，如果window size等于2就是图中红色的filter，每次选取两个词。window size等于3的话就是图中黄色的部分，每次选取三个词。这样卷积的意义就是每次都能获取到一个n-gram特征，这与我们的直觉也是类似的。卷积之后再使用max-1-pooling，也就是选择这句话中最显著的词或词组作为下一层的结果。然后将这些关键词组合起来输入全连接层就可以得到分类结果了。更详细的CNN解释可以看这篇博客。CNN文本分类详解

在这里插入图片描述
下面介绍下如何使用Keras实现这个逻辑。
首先载入IMDB数据集，选取词频最高的5000个词作为输入，其他的词都是0。然后再把句子的单词长度固定为500。

# load the dataset but only keep the top n words, zero the rest
top_words = 5000
(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=top_words)
# pad dataset to a maximum review length in words
max_words = 500
x_train = sequence.pad_sequences(x_train, maxlen=max_words)
x_test = sequence.pad_sequences(x_test, maxlen=max_words)

接下来创建conv1D + max-pooling的CNN模型。首先初始化一个embedding，为所有词随机生成一个词向量（这里也可以使用预训练的词向量，效果会更好）。然后使用Conv1D进行卷积，其中kernel_size这个参数就是我们前面所说的window size, 这里我们让它等于3，也就是每次取3个词，得到的是tri-gram特征。然后GlobalMaxPooling进行池化，最后使用全连接层得到一个值。这个值就代表属于哪一类的分数。优化的时候使用Adam优化器。

sentence = Input(batch_shape=(None, max_words), dtype='int32', name='sentence')
#初始化一个embedding，为所有词随机生成一个词向量
embedding_layer = Embedding(top_words, embedding_dims, input_length=max_words)
sent_embed = embedding_layer(sentence)
#进行卷积
conv_layer = Conv1D(filters, kernel_size, padding='valid', activation='relu')
sent_conv = conv_layer(sent_embed)
#使用GlobalMaxPooling1D()进行池化
sent_pooling = GlobalMaxPooling1D()(sent_conv)
#全连接层
sent_repre = Dense(250)(sent_pooling)
sent_repre = Activation('relu')(sent_repre)
sent_repre = Dense(1)(sent_repre)
pred = Activation('sigmoid')(sent_repre)
model = Model(inputs=sentence, outputs=pred)
#Adam优化器
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

最后训练模型

# fit the model
model.fit(x_train, y_train, batch_size=batch_size, epochs=epochs, verbose=1,validation_data=(x_test, y_test))

可以看到最终模型在测试集上的准确率为88.64%

25000/25000 [==============================] - 25s 1ms/step - loss: 0.3455 - acc: 0.8420 - val_loss: 0.2775 - val_acc: 0.8815
Epoch 2/2
25000/25000 [==============================] - 24s 973us/step - loss: 0.1603 - acc: 0.9390 - val_loss: 0.2871 - val_acc: 0.8864
Accuracy: 88.64%

三、使用多窗口的CNN

前面使用的windows size=3的卷积，也就是每次取三个词，得到tri-gram特征。那要是觉得只用tri-gram还不够丰富，还想加入bi-gram或者更多类型的n-gram怎么办?那只要把Conv-1D这里改下就好了，代码如下。使用一个循环，假设kernel_size_list = [2,3,4]，这代表我们会分别取2个词，3个词，4个词进行卷积，然后将池化的结果进行拼接，最后得到了更加丰富的特征。

# use multi window-size cnn
cnn_result = []
for kernel_size in kernel_size_list:
    conv_layer = Conv1D(filters, kernel_size, padding='valid', activation='relu')
    sent_conv = conv_layer(sent_embed)
    sent_pooling = GlobalMaxPooling1D()(sent_conv)
    cnn_result.append(sent_pooling)
cnn_result = concatenate(cnn_result)

也可以看到使用多窗口的卷积最终准确率达到了89.99%，与只使用窗口为3的CNN相比提高了1个多点。

25000/25000 [==============================] - 77s 3ms/step - loss: 0.3345 - acc: 0.8483 - val_loss: 0.2592 - val_acc: 0.8941
Epoch 2/2
25000/25000 [==============================] - 73s 3ms/step - loss: 0.1555 - acc: 0.9409 - val_loss: 0.2462 - val_acc: 0.8999
Accuracy: 89.99%

使用Keras搭积木比tensorflow更加简洁抽象，不过我最后没在机子上运行出结果，原因是数据集太庞大，下载数据集又是龟速。。。(故贴了作者的结果)

Petrichoryi

关注

2
点赞
踩
51

收藏

觉得还不错? 一键收藏
1
评论
基于CNN的文本情感分析

情感分析是自然语言处理中很常见的任务，它的目的是识别出一段文本潜在的情感，是表扬还是批评，是支持还是反对。比如我们可以使用情感分析去分析社媒的评论，从而得到网友对某件事的看法，进一步分析可以得到舆论的趋势。
复制链接

扫一扫

专栏目录