新闻分类:多分类问题

本文使用Keras处理路透社数据集的多分类问题,通过构建神经网络,训练并测试模型,最终达到约80%的精度。强调了在多分类任务中避免信息瓶颈的重要性。
摘要由CSDN通过智能技术生成

本文使用的数据集是路透社数据集,包含许多短新闻以及对应的主题。路透社将新闻划分为46个互斥的主题。因为有多个类别,且每个数据点只能划分到一个类别,所以是单标签、多分类问题

准备数据

首先,加载数据

from keras.datasets import reuters

(train_data, train_labels), (test_data, test_labels) = reuters.load_data(num_words=10000)
len(train_data)

8982

len(test_data)

2246

毓IMDB数据集一样,每个样本都是一个整数列表

train_data[10]

[1,
245,
273,
207,
156,
53,
74,
160,
26,
14,
46,…

所以,我们也需要用one-hot编码处理一下:

import numpy as np

def vectorize_sequences(sequences, dimension=10000):
    results = np.zeros((len(sequences), dimension))
    for i, sequence in enumerate(sequences):
        results[i, sequence] = 1.
    return results

# Our vectorized training data
x_train = vectorize_sequences(train_data)
# Our vectorized test data
x_test = vectorize_sequences(test_data)

因为这个是多分类问题,所以我们对labels也要进行独热编码处理

def to_one_hot(labels, dimension=46):
    results = np.zeros(
  • 1
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Einstellung

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值