数据集探索-IMDB数据分析

最新推荐文章于 2022-11-16 02:12:04 发布

nht1996

最新推荐文章于 2022-11-16 02:12:04 发布

阅读量2.6k

点赞数

文章标签： nlp 文本分类

本文链接：https://blog.csdn.net/nht1996/article/details/90147160

版权

这篇博客使用IMDB数据集进行影评文本分类，通过预处理、构建模型、训练和评估，展示了如何利用TensorFlow处理文本分类任务。文章详细解释了数据探索、模型构建过程，以及如何防止过拟合。

摘要由CSDN通过智能技术生成

影评文本分类

我们将使用IMDB数据集，其中包含来自互联网电影数据库的50000条文本。我们将这些文本拆分成训练集和测试集，使它们包含相同的正面和负面影评。
这里使用colab做演示。
导入相应的包

import tensorflow as tf
from tensorflow import keras

import numpy as np

下载IMDB数据集

TensorFlow中包含IMDB数据集。我们对数据集进行了预处理，将影评(字词序列)转换成整数序列，其中每个整数表示字典中的一个特定字词。

imdb = keras.datasets.imdb

(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000

参数num_words=10000会保留训练数据中还出现频次在前10000位的字词。为了确保数据规模处于可管理的水平，罕见字词将被舍弃。

探索数据

了解一下数据格式，该数据集已经过预处理：每个样本都是一个整数数组，表示影评中的字词。每个标签都是整数值0或1，其中0表示负面影评，1表示正面影评。

print("Training entries: {}, labels: {}".format(len(train_data),len(train_labels)))

Training entries: 25000, labels: 25000

影评文本已转换为整数，其中每个整数都表示字典中的一个特定字词。第一条影评如下所示:

print(train_data[0])

[1, 14, 22, 16, 43, 530, 973, 1622, 1385, 65, 458, 4468, 66, 3941, 4, 173, 36, 256, 5, 25, 100, 43, 838, 112, 50, 670, 2, 9, 35, 480, 284, 5, 150, 4, 172, 112, 167, 2, 336, 385, 39, 4, 172, 4536, 1111, 17, 546, 38, 13, 447, 4, 192, 50, 16, 6, 147, 2025, 19, 14, 22, 4, 1920, 4613, 469, 4, 22, 71, 87, 12, 16, 43, 530, 38, 76, 15, 13, 1247, 4, 22, 17, 515, 17, 12, 16, 626, 18, 2, 5, 62, 386, 12, 8, 316, 8, 106, 5, 4, 2223, 5244, 16, 480, 66, 3785, 33, 4, 130, 12, 16, 38, 619, 5, 25, 124, 51, 36, 135, 48, 25, 1415, 33, 6, 22, 12, 215, 28, 77, 52, 5, 14, 407, 16, 82, 2, 8, 4, 107, 117, 5952, 15, 256, 4, 2, 7, 3766, 5, 723, 36, 71, 43, 530, 476, 26, 400, 317, 46, 7, 4, 2, 1029, 13, 104, 88, 4, 381, 15, 297, 98, 32, 2071, 56, 26, 141, 6, 194, 7486, 18, 4, 226, 22, 21, 134, 476, 26, 480, 5, 144, 30, 5535, 18, 51, 36, 28, 224, 92, 25, 104, 4, 226, 65, 16, 38, 1334, 88, 12, 16, 283, 5, 16, 4472, 113, 103, 32, 15, 16, 5345, 19, 178, 32]

影评的长度可能会有所不同，以下代码显示了第一条和第二条影评中的字词数。由于神经网络的输入必须具有相同长度，因此我们需要解决这个问题

len(train_data[0]), len(train_data[1])

(218, 189)

了解如何将整数转换为文本可能很有用，在下列代码中，我们将创建一个辅助函数来查询包含整数到字符串映射的字典对象：

word_index = imdb.get_word_index()

word_index = {
   k:(v+3) for k,v in word_index.items()}
word_index["<PAD>"] = 0
word_index["<START>"] = 1
word_index["<UNK>"] = 2
word_index["<UNUSED>"] = 3

reverse_word_index = dict([(value,key) for (key,value) in word_index.items()])

def decode_review(text):
  return ' '.join([reverse_word_index.get(i,'?') for i in text])

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/imdb_word_index.json
1646592/1641221 [============

最低0.47元/天解锁文章

nht1996

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
数据集探索-IMDB数据分析

影评文本分类我们将使用IMDB数据集，其中包含来自互联网电影数据库的50000条文本。我们将这些文本拆分成训练集和测试集，使它们包含相同的正面和负面影评。这里使用colab做演示。导入相应的包import tensorflow as tffrom tensorflow import kerasimport numpy as np下载IMDB数据集TensorFlow中包含IMD...
复制链接

扫一扫