前言
之前在学习《Python深度学习》这本书的时候记得在书中有一个 使用GloVe词嵌入的方式进行IMDB数据集的情感分类任务,而最近在网上学习了一个使用BERT进行关系抽取的项目,于是乎考虑尝试用BERT来再次尝试对IMDB数据集的情感分类任务。同样的这次也是采取随机的200个数据集作为训练集,10000个数据集作为测试集。全部代码在github上已经给出。
步骤
本次实验的大致步骤同书中的例子一致:
分词->向量化+Dense层
数据集
从http://mng.bz/0tIo,下载到的原始IMDB数据集,我们使用解压后文件中的aclimdb文件夹中的train数据集,其中包含12500个neg样本和12500个pos样本。对其进行如下处理:
# 从pos以及neg样例中共抽取25000个样本
import os
imdb_dir = '/Users/ted/Desktop/NLP/IMDB-BERT/aclImdb'
train_dir = os.path.join(imdb_dir, 'train')
labels = []
texts = []
for label_type in ['neg', 'pos']:
dir_name = os.path.join(train_dir, label_type)
for fname in os.listdir(dir_name):
if fname[-4:] ==</