RNN实现影评情感分析

最新推荐文章于 2024-07-26 15:36:49 发布

人如墨

最新推荐文章于 2024-07-26 15:36:49 发布

阅读量6.7k

点赞数 5

分类专栏：深度学习 tensorflow 文章标签：深度学习 RNN LSTM

本文链接：https://blog.csdn.net/qq_34464926/article/details/81701190

版权

本文使用RNN进行电影评论的情感分析，通过LSTM细胞层处理序列信息，提高预测准确性。数据预处理包括单词编码、标签编码和数据集划分。模型结构包含嵌入层、LSTM层和全连接层，训练后在测试集上达到高准确率。

摘要由CSDN通过智能技术生成

在这里我们将使用RNN(循环神经网络)对电影评论进行情感分析，结果为positive或negative，分别代表积极和消极的评论。至于为什么使用RNN而不是普通的前馈神经网络，是因为RNN能够存储序列单词信息，得到的结果更为准确。这里我们将使用一个带有标签的影评数据集进行训练模型。

使用的RNN模型架构如下：

在这里，我们将单词传入到嵌入层而不是使用ONE-HOT编码，是因为词嵌入是一种对单词数据更好的表示。

在嵌入层之后，新的表示将会进入LSTM细胞层。最后使用一个全连接层作为输出层。我们使用sigmiod作为激活函数，因为我们的结果只有positive和negative两个表示情感的结果。输出层将是一个使用sigmoid作为激活函数的单一的单元。

数据加载

import numpy as np
import tensorflow as tf

with open('../sentiment-network/reviews.txt', 'r') as f:
    reviews = f.read()
with open('../sentiment-network/labels.txt', 'r') as f:
    labels = f.read()

查看前2000个单词

reviews[:2000]

输出：

加载完数据后就需要对数据进行预处理：

数据预处理

构建神经网络的第一步是将数据处理成合适的格式，由于我们需要将数据输入到嵌入层，因此需要将每一个单词编码为整数形式。

在数据集中，每条评论是用换行符分隔的。为了解决这些问题，我将把文本分成每一个评论，使用\n作为分隔符。然后我可以把所有的评论组合成一个大的字符串。

首先，我们将移除数据中所有的标点符号，然后去掉所有的换行符，得到所有单独的单词组成的列表：

from string import punctuation
all_text = ''.join([c for c in reviews if c not in punctuation])
reviews = all_text.split('\n')

all_text = ''.join(reviews)
words = all_text.split()

查看处理结果：

all_text[:2000]

输出：

对单词进行编码

嵌入层需要传入整数类型的数据，因此我们需要将单词编码为整数类型。最简单的方法是创建一个从单词到整数的映射的字典。然后我们能将每条评论转换为整数传入网络。

from collections import Counter
counts = Counter(words)
vocab = sorted(counts, key=counts.get, reverse=True)
vocab_to_int = {word : ii for ii, word in enumerate(vocab, 1)}
reviews_ints = []

for review in reviews:
    reviews_ints.append([vocab_to_int[word] for word in review.split()])
print(len(reviews_ints))
print(reviews_ints[1])

print(len(reviews_ints))
print(reviews_ints[1])

查看输出：

最低0.47元/天解锁文章

人如墨

关注

5
点赞
踩
61

收藏

觉得还不错? 一键收藏
4
评论
RNN实现影评情感分析

在这里我们将使用RNN(循环神经网络)对电影评论进行情感分析，结果为positive或negative，分别代表积极和消极的评论。至于为什么使用RNN而不是普通的前馈神经网络，是因为RNN能够存储序列单词信息，得到的结果更为准确。这里我们将使用一个带有标签的影评数据集进行训练模型。使用的RNN模型架构如下：在这里，我们将单词传入到嵌入层而不是使用ONE-HOT编码，是因为词嵌入是一种...
复制链接

扫一扫

专栏目录