决策树IMDB数据集电影评测分类

决策树IMDB数据集电影评测分类(二分类问题)

1. 数据集讲解:

该数据集是IMDB电影数据集的一个子集,已经划分好了测试集和训练集,训练集包括25000条电影评论,测试集也有25000条,该数据集已经经过预处理,将每条评论的具体单词序列转化为词库里的整数序列,其中每个整数代表该单词在词库里的位置。例如,整数104代表该单词是词库的第104个单词。为实验简单,词库仅仅保留了10000个最常出现的单词,低频词汇被舍弃。每条评论都具有一个标签,0表示为负面评论,1表示为正面评论。

训练数据在train_data.txt文件下,每一行为一条评论,训练集标签在train_labels.txt文件下,每一行为一条评论的标签;测试数据在test_data.txt文件下,测试数据标签未给出。

2. 代码实现:

a) 取出数据集:

从txt中取出训练集与测试集:

with open("test/test_data.txt", "rb") as fr:

  test_data_n = [inst.decode().strip().split(' ') for inst in fr.readlines()]

  test_data = [[int(element) for element in line] for line in test_data_n]

test_data = np.array(test_data)
b) 数据处理:

对每条评论,先将其解码为英文单词,再键值颠倒,将整数索引映射为单词。

把整数序列编码为二进制序列。

最后把训练集标签向量化。

# 将某条评论解码为英文单词

word_index = imdb.get_word_index() # word_index是一个将单词映射为整数索引的字典

reverse_word_index = dict([(value, key) for (key, value) in word_index.items()])

 

\# 键值颠倒,将整数索引映射为单词

decode_review = ' '.join(

  [reverse_word_index.get(i - 3, '?') for i in train_data[0]]

) 

\# 将评论解码

\# 注意,索引减去了3,因为0,1,2是为padding填充

\# "start sequence"序列开始,"unknow"未知词分别保留的索引

 

\# 将整数序列编码为二进制矩阵

def vectorize_sequences(sequences, dimension=10000):

  results = np.zeros((len(sequences), dimension)) # 创建一个形状为(len(sequences), dimension)的矩阵

  for i, sequence in enumerate(sequences):

​    results[i, sequence] = 1 # 将results[i]的指定索引设为 1

  return results

 

x_train = vectorize_sequences(train_data)

x_test = vectorize_sequences(test_data)

\# 标签向量化

y_train = np.asarray(train_labels).astype('float32')

 

c) 建立决策树:

decision_tree_classifier = DecisionTreeClassifier()

decision_tree_classifier.fit(x_train, y_train)

d) 输出测试集上的预测结果:

将结果写入txt

decision_tree_output = decision_tree_classifier.predict(x_test)

des = decision_tree_output.astype(int)

np.savetxt('Text3_result.txt', des, fmt='%d', delimiter='\n')

print(decision_tree_output)

3. 参数调整:

使用设置max_depth控制树的深度,置random_state = 30 不变,使用for循环寻找,发现深度为25时,accuracy_score最大。
在这里插入图片描述

4. 实验结果:

分离出一部分作为测试集,在测试集上的accuracy_score不太理想:

在这里插入图片描述

考虑应该是决策树模型并不适合处理该问题。

  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Yuetianw

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值