路透社数据集——新闻主题多分类

最新推荐文章于 2025-03-28 09:18:13 发布

SuperWiwi

最新推荐文章于 2025-03-28 09:18:13 发布

阅读量6k

点赞数 4

分类专栏：人工智能

本文链接：https://blog.csdn.net/qq_36622009/article/details/105754798

版权

本文介绍了使用Keras处理路透社数据集的多分类问题，详细讲述了数据加载、预处理、网络构建、训练和评估过程。通过9轮训练，模型在测试集上达到约80%的精度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

1.数据集及问题简介

路透社数据集(Reuter)，它包含许多短新闻及其对应的主题，由路透社在1986 年发布。它是一个简单的、广泛使用的文本分类数据集。它包括46 个不同的主题：某些主题的样本更多，但训练集中每个主题都有至少10 个样本。与IMDB 和MNIST 类似，路透社数据集也内置为Keras 的一部分。

我们需要将路透社新闻划分为46 个互斥的主题。因为有多个类别，所以这是多分类（multiclass classification）问题的一个例子。因为每个数据点只能划分到一个类别，所以更具体地说，这是单标签、多分类（single-label, multiclass classification）问题的一个例子。如果每个数据点可以划分到多个类别（主题），那它就是一个多标签、多分类（multilabel,multiclass classification）问题。

2.加载数据集并探索数据

from keras.datasets import reuters

(train_data, train_labels), (test_data, test_labels) = reuters.load_data(num_words=10000)

print(len(train_data)) #8982
print(len(test_data)) #2246
print(train_data[10])
print(train_labels[10]) # 3

与IMDB 数据集一样，参数num_words=10000 将数据限定为前10 000 个最常出现的单词。我们有8982 个训练样本和2246 个测试样本。与IMDB 评论一样，每个样本都是一个整数列表（表示单词索引）。样本对应的标签是一个0~45 范围内的整数，即话题索引编号。

我们可以用下列代码将索引解码为单词。

word_index = reuters.get_word_index()
reverse_word_index = dict([(value, key) for (key, value) in word_index.items()])
# Note that our indices were offset by 3
# because 0, 1 and 2 are reserved indices for "padding", "start of sequence", and "unknown".
decoded_newswire = ' '.join([reverse_word_index.get(i - 3, '?') for i in train_data[0]])

3.准备输入的数据

import numpy as np

def to_one_hot(labels, dimension=46)

最低0.47元/天解锁文章