新闻分类：多分类问题

最新推荐文章于 2022-09-07 21:00:40 发布

Einstellung

最新推荐文章于 2022-09-07 21:00:40 发布

阅读量9.3k

点赞数 1

本文链接：https://blog.csdn.net/einstellung/article/details/82695194

版权

本文使用Keras处理路透社数据集的多分类问题，通过构建神经网络，训练并测试模型，最终达到约80%的精度。强调了在多分类任务中避免信息瓶颈的重要性。

摘要由CSDN通过智能技术生成

本文使用的数据集是路透社数据集，包含许多短新闻以及对应的主题。路透社将新闻划分为46个互斥的主题。因为有多个类别，且每个数据点只能划分到一个类别，所以是单标签、多分类问题

准备数据

首先，加载数据

from keras.datasets import reuters

(train_data, train_labels), (test_data, test_labels) = reuters.load_data(num_words=10000)

len(train_data)

8982

len(test_data)

2246

毓IMDB数据集一样，每个样本都是一个整数列表

train_data[10]

[1,
245,
273,
207,
156,
53,
74,
160,
26,
14,
46,…

所以，我们也需要用one-hot编码处理一下：

import numpy as np

def vectorize_sequences(sequences, dimension=10000):
    results = np.zeros((len(sequences), dimension))
    for i, sequence in enumerate(sequences):
        results[i, sequence] = 1.
    return results

# Our vectorized training data
x_train = vectorize_sequences(train_data)
# Our vectorized test data
x_test = vectorize_sequences(test_data)

因为这个是多分类问题，所以我们对labels也要进行独热编码处理

def to_one_hot(labels, dimension=46):
    results = np.zeros(

最低0.47元/天解锁文章

Einstellung

关注

1
点赞
踩
25

收藏

觉得还不错? 一键收藏
打赏
0
评论
新闻分类：多分类问题

本文使用的数据集是路透社数据集，包含许多短新闻以及对应的主题。路透社将新闻划分为46个互斥的主题。因为有多个类别，且每个数据点只能划分到一个类别，所以是单标签、多分类问题准备数据首先，加载数据from keras.datasets import reuters(train_data, train_labels), (test_data, test_labels) = reute...
复制链接

扫一扫