NLP基础实验①:IMDB电影评论情感分析

1、数据集导入与探索

import tensorflow as tf
from tensorflow import keras

imdb = keras.datasets.imdb
(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000)

参数 num_words=10000 会保留训练数据中出现频次在前 10000 位的字词。为确保数据规模处于可管理的水平,罕见字词将被舍弃。

探索数据的格式

该数据集已经过预处理,每个样本都是一个整数数组,表示影评中的字词。每个标签都是整数值 0 或 1,其中 0 表示负面影评,1 表示正面影评。

print("Training entries: {}, labels: {}".format(len(train_data), len(train_labels)))
#影评文本已转换为整数,其中每个整数都表示字典中的一个特定字词
#第一条影评
print(train_data[0])
#影评的长度可能会有所不同。打印第一条和第二条影评中的字词数。神经网络的输入必须具有相同长度,稍后解决
len(train_data[0]), len(train_data[1])

数据处理:将整数转换文本

创建一个辅助函数来查询包含整数到字符串映射的字典对象

# A dictionary mapping words to an integer index
word_index = imdb.get_word_index()

# The first indices are reserved
word_index = {k:(v+3) for k,v in word_index.items()}
word_index["<PAD>"] = 0
word_index["<START>"] = 1
word_index["<UNK>"] = 2  # unknown
word_index["<UNUSED>"] = 3

reverse_word_index = dict([(value, key) for (key, value) in word_index.items()])

def decode_review(text):
    return ' '.join([reverse_word_index.get(i, '?') for i in text])

显示第一条影评的文本

decode_review(train_data[0])

数据处理:影评(整数数组)必须转换为张量

填充数组,使它们都具有相同的长度,然后创建一个形状为 max_length * num_reviews 的整数张量
我们可以使用一个能够处理这种形状的嵌入层作为网络中的第一层
由于影评的长度必须相同,我们将使用 pad_sequences 函数将长度标准化

train_data = keras.preprocessing.sequence.pad_sequences(train_data,
                                                        value=word_index["<PAD>"],
                                                        padding='post',
                                                        maxlen=256)

test_data = keras.preprocessing.sequence.pad_sequences(test_data,
                                                       value=word_index["<PAD>"],
                                                       padding='post',
                                                       maxlen=256)
#查看样本的长度
len(train_data[0]), len(train_data[1])
#检查(现已填充的)第一条影评
print(train_data[0])

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值