python利用tensorflow.keras对Imdb数据集探索(1)--数据分析+预处理

最新推荐文章于 2024-07-18 06:08:31 发布

qq_42797457

最新推荐文章于 2024-07-18 06:08:31 发布

阅读量1.5k

点赞数 1

本文链接：https://blog.csdn.net/qq_42797457/article/details/102484991

版权

本文介绍了如何使用TensorFlow.Keras对IMDb数据集进行预处理，包括下载数据、查看文件、创建读取函数、转换文本为数字序列以及填充序列以确保统一长度。预处理过程对于后续的深度学习模型训练至关重要。

摘要由CSDN通过智能技术生成

一、Imdb数据集

IMDB 数据集：5000条评论，用于训练的 25 000 条评论与用于测试的 25 000 条评论，训练集和测试集都包含 50% 的正面评论和 50% 的负面评论

二、下载Imdb数据集

下载并解压，将aclImdb文件夹放到到与程序共同目录下
在这里插入图片描述

三、查看文件

aclImdb文件夹下存在一个测试数据集和训练数据集
在这里插入图片描述 train和test文件夹下都有neg和pos文件夹，分别存放12500个消极评价（差评）和12500个积极评价（好评）的文件
随机查看某些影评文件，发现存在html代码

这提示我们应在加载数据时进行预处理（删除这些代码）

四、创建读取函数

import re
# 有一些文本可能存在html代码，应去除此类字符
def rm_tags(test):
    re_tag = re.compile(r'<[^>]+>')
    return re_tag.sub('', test)

import os
def read_files(filetype):  # filetype取值为 'train' / 'test'
    path =

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qq_42797457

关注关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Tensorflow 2.x(keras)源码详解之第五章：数据预处理

weixin_43178406的博客

04-21

1万+

本文主要介绍了Tensorflow 2.x(keras)源码详解之第五章：数据预处理，希望能对学习TensorFlow 2的同学有所帮助。文章目录 1. 数据预处理流程 2. 实战代码

python对IMDB数据进行神经网络分析

07-23

利用python中的深度学习库keras，对IMDB电影数据集建立了神经网络模型进行分析，涉及原始电影数据的词嵌入处理技术，附有完整的Python代码以及注释。

参与评论您还未登录，请先登录后发表或查看评论

基于LSTM的IMDB影评情感分析

最新发布

bullnfresh的专栏

07-18

154

通过加载已经经过预处理的文本来生成每个样本的文本与标签。# 定义Datasetself.text_with_tag = file.readlines() # 文本标签与内容def __getitem__(self, index): # 重写getitemline = self.text_with_tag[index] # 获取一个样本的标签和文本信息label = int(line[0]) # 标签信息text = line[2:-1] # 文本信息。

神经网络-二分类问题(IMDB) Keras + TensorFlow

01-14

数据集为Keras自带的IMDB数据集，运行文件是自动下载。后台为TensorFlow，文件为.py格式，打开即可直接运行。

基于tensorflow的IMDB文本情感分析完整代码（包含数据和词向量可直接运行）

03-25

基于tensorflow的IMDB文本情感分析完整代码（包含数据和词向量可直接运行），网络结构采用双层LSTM。

tensorflow.keras实现IMDB情感分类实战

weixin_53366150的博客

08-17

956

文章目录数据准备数据预处理模型训练训练效果可视化实验测试Embedding可视化本文是个人对《Deep Learning with Python》一书的学习笔记。使用 VSCode 下的 ipynb （python notebook). 数据准备在 http://mng.bz/0tIo 下载IMDB数据集（57.9MB）并解压。在 \acllmdb\train 路径下，\neg 文件夹中存有 12500 个对电影的负面评价txt， \pos 文件夹中存有 12500 个对电影的正面评价txt. 读取所有

tensorflow.keras.datasets.imdb 中 load_data 函数的解析

baidu_41902768的博客

08-04

8387

开始接触一点 NLP，一边看 2017 年的 CS224n课程，因为里面的作业似乎是要求用 tensorflow，而 2019 年新的课程是用 pytorch。从 IMDB 数据集开始试试，简单的解析了之后可以看到评论的内容和正负两种评价标签，然后就要对词向量做一个词嵌入(Embedding)的处理，因为网络结构不是用 ANN 而是用循环神经网络 RNN 来做，所以不可以用稀疏向量(...

tensorflow.keras metrics应用

没有胡子的猫Asimov

08-24

465

tensorflow.keras metrics应用不使用metrics实现的博客参考： import tensorflow as tf from tensorflow.keras import datasets, layers, optimizers, Sequential, metrics 更改数据类型并归一化 def preprocess(x, y): x = tf.cast(x, dtype=tf.float32) / 255. y = tf.cast(y, dt

TensorFlow自带数据集-keras自带数据集下载.zip

06-21

最后，压缩包中的"keras自带数据集"可能是指Keras除了TensorFlow内置数据集外，还可以访问的一些外部数据集，如`tensorflow.keras.utils.get_file`函数可以用来下载并缓存任何远程数据集。这个函数可以方便地处理因...

python3.8+tensorflow2.4.0+keras-2.4.3: IMDB电影评论情感分析

小径分岔的花园

01-28

1560

参考《python深度学习》第六章第一节 IMDB电影评论分类背景知识EmbeddingIMDB数据集模型实现模型1（自训练词嵌入）模型2（自训练词嵌入）模型3（预训练词嵌入）遇到的问题和解决方案背景知识 Embedding 本节关注：在Embedding层，使用预训练和从零开始训练的词嵌入对模型性能的影响。 Embedding层相当于一个字典，负责将词索引映射到固定尺寸的稠密词向量。它接受整数序列作为输入，返回对应的词向量。它只能作为模型的第一层。输入是二维整数张量，形状是 samples * seq

aclImdb.zip电影影评情感分析数据集

05-24

aclImdb.zip电影影评情感分析数据集，里面有两个子文件夹，train和test，里面又分别是有好的影评文件和坏的影评文件数据集

aclImdb_v1IMDB情感分类数据集.7z

07-13

aclImdb_v1IMDB情感分类数据集.7z

ACL IMDb 数据集

05-19

ACL IMDb 数据集

imdb数据集

01-08

原网址下载速度过慢，这里放到本地。imdb电影评分数据集，包含pkl和npz的格式

imdb数据集（训练数据和测试数据）

10-15

数据 allmdb 其中包括训练数据和测试数据以及redme ~~~

Python-Keras文本深度学习数据预处理工具

08-11

在"Python-Keras文本深度学习数据预处理工具"中，我们主要探讨的是如何利用Keras库对文本数据进行预处理，以便更好地应用于深度学习任务，如文本分类、情感分析或自然语言生成。 1. **文本预处理的基本概念**：在...

Transformers实战——使用本地数据进行AclImdb情感分类

HMT的博客

04-01

3642

使用本地数据进行AclImdb情感分类

BERT+textCNN+aclImdb文本情感分析

weixin_42899049的博客

10-20

1789

目录环境配置 数据集解压 huggingfaceBERT下载正式开始 import相应的包导入BERT-base 读取数据数据预处理 网络定义开始训练输入文字进行测试结果代码参考《动手学深度学习》（Pytorch版）10.8节改动词向量部分。文本情感分类：使用卷积神经网络（textCNN） github地址代码中需要用到d2l包中的函数 aclImdb数据集地址环境配置对于《动手学深度学习》（Pytorch版）可以使用的环境是，cuda10+pyt.

通过TensorFlow框架搭建GRU模型实现对IMDB数据集的分析

06-01

好的，下面是使用TensorFlow框架搭建GRU模型实现对IMDB数据集的分析的步骤： 1. 导入所需的库和数据集 ```python import tensorflow as tf from tensorflow import keras from tensorflow.keras.layers import Dense, GRU, Embedding from tensorflow.keras.datasets import imdb # 加载IMDB数据集 vocab_size = 10000 # 词汇表大小 (train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=vocab_size) ``` 2. 对数据进行预处理 ```python maxlen = 500 # 句子最大长度 # 将句子进行填充或截断，使其长度相同 train_data = keras.preprocessing.sequence.pad_sequences(train_data, maxlen=maxlen) test_data = keras.preprocessing.sequence.pad_sequences(test_data, maxlen=maxlen) ``` 3. 构建GRU模型并编译 ```python embedding_dim = 32 # 词向量维度 gru_units = 64 # GRU单元数 model = keras.Sequential([ Embedding(vocab_size, embedding_dim, input_length=maxlen), GRU(gru_units), Dense(1, activation='sigmoid') ]) model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy']) ``` 4. 训练模型 ```python epochs = 10 # 迭代次数 model.fit(train_data, train_labels, epochs=epochs, batch_size=128, validation_split=0.2) ``` 5. 在测试集上评估模型性能 ```python test_loss, test_acc = model.evaluate(test_data, test_labels, verbose=2) print('Test accuracy:', test_acc) ``` 这样就完成了使用TensorFlow框架搭建GRU模型实现对IMDB数据集的分析。完整代码如下： ```python import tensorflow as tf from tensorflow import keras from tensorflow.keras.layers import Dense, GRU, Embedding from tensorflow.keras.datasets import imdb # 加载IMDB数据集 vocab_size = 10000 # 词汇表大小 (train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=vocab_size) maxlen = 500 # 句子最大长度 # 将句子进行填充或截断，使其长度相同 train_data = keras.preprocessing.sequence.pad_sequences(train_data, maxlen=maxlen) test_data = keras.preprocessing.sequence.pad_sequences(test_data, maxlen=maxlen) embedding_dim = 32 # 词向量维度 gru_units = 64 # GRU单元数 model = keras.Sequential([ Embedding(vocab_size, embedding_dim, input_length=maxlen), GRU(gru_units), Dense(1, activation='sigmoid') ]) model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy']) epochs = 10 # 迭代次数 model.fit(train_data, train_labels, epochs=epochs, batch_size=128, validation_split=0.2) test_loss, test_acc = model.evaluate(test_data, test_labels, verbose=2) print('Test accuracy:', test_acc) ``` 注意：上述代码仅供参考，实际使用中需要根据具体情况进行调整和改进。