Python深度学习案例2--新闻分类(多分类问题)

最新推荐文章于 2024-08-19 00:39:56 发布

墨麟非攻

最新推荐文章于 2024-08-19 00:39:56 发布

阅读量4.7k

点赞数 2

分类专栏： Python深度学习案例文章标签：深度学习

本文链接：https://blog.csdn.net/qq_43452804/article/details/83926362

版权

使用Python深度学习对路透社新闻进行46类分类，通过调整模型结构和参数，探讨中间层维度对精度的影响。

摘要由CSDN通过智能技术生成

本节构建一个网络，将路透社新闻划分为46个互斥的主题，也就是46分类
1. 加载数据集

from keras.datasets import reuters

(train_data, train_labels), (test_data, test_labels) = reuters.load_data(num_words=10000)

将数据限定在10000个最常见出现的单词，8982个训练样本和2264个测试样本

len(train_data)

8982

len(test_data)

2246

train_data[10]

2. 将索引解码为新闻文本

word_index = reuters.get_word_index()
reverse_word_index = dict([(value, key) for (key, value) in word_index.items()])
# Note that our indices were offset by 3
# because 0, 1 and 2 are reserved indices for "padding", "start of sequence", and "unknown".
decoded_newswire = ' '.join([reverse_word_index.get(i - 3, '?') for i in train_data[0]])

train_labels[10]

3. 编码数据

import numpy as np

def vectorize_sequences(sequences, dimension=10000):
    results = np.zeros((len(sequences), dimension))
    for i, sequence in enumerate(sequences):
        results[i, sequence] = 1
    return results

# 将训练数据向量化
x_train = vectorize_sequences(train_data)
# 将测试数据向量化
x_test = vectorize_sequences(test_data)

# 将标签向量化，将标签转化为one-hot
def to_one_hot(labels, dimension=46):
    results = np.zeros((len(labels), dimension))
    for i, label in enumerate(labels):
        results[i, label] = 1
    return results

one_hot_train_labels = to_one_hot(train_labels)
one_hot_test_labels = to_one_hot(test_labels)

from keras.utils.np_utils import to_categorical

one_hot_