电影评论分类（二分类问题）

最新推荐文章于 2024-02-29 11:17:52 发布

VIP文章纯情小道士啊

最新推荐文章于 2024-02-29 11:17:52 发布

阅读量688

点赞数 1

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_39821699/article/details/88671720

版权

IMDB数据集是最经典的二分类问题之一
它包含来自于IMDB的50000条严重两级分化的数据集
训练集合测试集正面和反面评论各占百分之五十

加载数据集

from keras.datasets import imdb

(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000)

num_words=10000的意思是仅保存训练数据中前10000个最常出现的单词，这样便于处理

train_data[0]

[1,
14,
22,
16,
43,
530,
973,
1622,
1385,
65,
458,
4468,
66,
3941,
4,
173,
36,
256,
5,
25,
100,
43,
838,
112,
50,
670,
2,
9,
35,
480,
284,
5,
150,
4,
172,
112,
167,
2,
336,
385,
39,
4,
172,
4536,
1111,
17,
546,
38,
13,
447,
4,
192,
50,
16,
6,
147,
2025,
19,
14,
22,
4,
1920,
4613,
469,
4,
22,
71,
87,
12,
16,
43,
530,
38,
76,
15,
13,
1247,
4,
22,
17,
515,
17,
12,
16,
626,
18,
2,
5,
62,
386,
12,
8,
316,
8,
106,
5,
4,
2223,
5244,
16,
480,
66,
3785,
33,
4,
130,
12,
16,
38,
619,
5,
25,
124,
51,
36,
135,
48,
25,
1415,
33,
6,
22,
12,
215,
28,
77,
52,
5,
14,
407,
16,
82,
2,
8,
4,
107,
117,
5952,
15,
256,
4,
2,
7,
3766,
5,
723,
36,
71,
43,
530,
476,
26,
400,
317,
46,
7,
4,
2,
1029,
13,
104,
88,
4,
381,
15,
297,
98,
32,
2071,
56,
26,
141,
6,
194,
7486,
18,
4,
226,
22,
21,
134,
476,
26,
480,
5,
144,
30,
5535,
18,
51,
36,
28,
224,
92,
25,
104,
4,
226,
65,
16,
38,
1334,
88,
12,
16,
283,
5,
16,
4472,
113,
103,
32,
15,
16,
5345,
19,
178,
32]
输出的单词的索引

train_labels[0]

0代表负面，1代表正面

以下代码可以帮评论转化为英文单词

word_index=imdb.get_word_index()#word_index是一个将单词映射为整数索引的字典
reverse_word_index=dict([(value,key) for (key,value) in word_index.items()])#单词和索引置换
decoded_review = ' '.join([reverse_word_index

最低0.47元/天解锁文章

纯情小道士啊

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
电影评论分类（二分类问题）

IMDB数据集是最经典的二分类问题之一它包含来自于IMDB的50000条严重两级分化的数据集训练集合测试集正面和反面评论各占百分之五十加载数据集from keras.datasets import imdb(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000)num...
复制链接

扫一扫