20行代码实现电影评论情感分析

最新推荐文章于 2024-09-22 17:56:39 发布

置顶 Garvin Li

最新推荐文章于 2024-09-22 17:56:39 发布

阅读量1.2w

点赞数 3

分类专栏：机器学习文章标签： TensorFlow 深度学习机器学习

本文链接：https://blog.csdn.net/buptgshengod/article/details/79492975

版权

机器学习专栏收录该内容

117 篇文章 19 订阅

订阅专栏

背景

情感分析有很多的应用场景，比如做一个电商网站，卖家需要时刻关心用户对于商品的评论是否是正面的。再比如做一个电影的宣传和策划，电影在键盘侠们中的口碑也至关重要。互联网上关于任何一个事件或物品都有可能产生成千上万的文本评论，如何定义每一个文本的情绪是正面或是负面的，是一个很有挑战的事情。挑战体现在以下几个方面，区别于结构化数据，评论数据的长短不一，很难限定到固定的维度。另外很难通过某个词判断用户的情绪，举个极端的例子，fu*k通常被认为是贬义词，但是如果一条评论是“傲海 is fu*kinghandsome”，那么其实就是一个正向的意义。本文我要使用IMDB数据集，通过20行的Tensorflow代码实现一个电影评论预测模型，准确率可以超过百分之九十五，里面涉及到一些词袋模型以及embedding的概念，这些我等下一篇文章再讲，这一次我们就讲实践。

数据

介绍下本文用到的训练数据IMDB，完全开源的一个电影评价数据集，有好几万条真实的电影评论数据。

每一个数据都被储存为txt文件存放，其中pos文件夹就存放正面评论的数据，neg文件夹存放负面情绪的数据。这些数据可以通过一些简单的代码提取出来，并且标记。数据集下载地址：http://ai.stanford.edu/~amaas/data/sentiment/

简单来说，在数据预处理阶段，需要把这些文本按照正向和负向打标，并且把文本向量化，比如“Aohai is fuc*inggentle”这种话要怎么变成数值向量，下一篇文章会具体说明。

代码

代码其实不止20行，但是真正建模并训练的就是只有20行，简单介绍下哈：

trainX = pad_sequences(trainX, maxlen=100, value=0.)
testX = pad_sequences(testX, maxlen=100, value=0.)
# Converting labels to binary vectors
trainY = to_categorical(trainY, nb_classes=2)
testY = to_categorical(testY, nb_classes=2)

# Network building
net = tflearn.input_data([None, 100])
net = tflearn.embedding(net, input_dim=vocabulary_size, output_dim=128)
net = tflearn.lstm(net, 128, dropout=0.8)
net = tflearn.fully_connected(net, 2, activation='softmax')
net = tflearn.regression(net, optimizer='adam', learning_rate=0.001,
                         loss='categorical_crossentropy')

# Training
model = tflearn.DNN(net, tensorboard_verbose=0)
model.fit(trainX, trainY,n_epoch=1, validation_set=(testX, testY), show_metric=True,
          batch_size=32)
predictions = model.predict(trainX)
print(predictions)

前4行应该比较容易懂