一、Imdb数据集
IMDB 数据集:5000条评论,用于训练的 25 000 条评论与用于测试的 25 000 条评论,训练集和测试集都包含 50% 的正面评论和 50% 的负面评论
二、下载Imdb数据集
下载并解压,将aclImdb
文件夹放到到与程序共同目录下
三、查看文件
aclImdb
文件夹下存在一个测试数据集和训练数据集
train
和test
文件夹下都有neg
和pos
文件夹,分别存放12500个消极评价(差评)和12500个积极评价(好评)的文件
随机查看某些影评文件,发现存在html代码
这提示我们应在加载数据时进行预处理(删除这些代码)
四、创建读取函数
import re
# 有一些文本可能存在html代码,应去除此类字符
def rm_tags(test):
re_tag = re.compile(r'<[^>]+>')
return re_tag.sub('', test)
import os
def read_files(filetype): # filetype取值为 'train' / 'test'
path =