python 新闻分类_python实现简单的新闻文章归类

最新推荐文章于 2024-01-16 16:29:00 发布

weixin_39673947

最新推荐文章于 2024-01-16 16:29:00 发布

阅读量2.2k

点赞数 1

文章标签： python 新闻分类

本文链接：https://blog.csdn.net/weixin_39673947/article/details/111403747

版权

本文介绍了使用Python的Keras库实现新闻文章的多分类任务，通过调整模型结构和选择适当的损失函数，如sparse_categorical_crossentropy，最终达到约80%的分类准确率。并讨论了随机分类器的基准准确率和如何从预测概率向量中获取预测类别。

摘要由CSDN通过智能技术生成

上一节我们提到了三个非常经典的问题，他们分别是：

二分类问题(电影评论好坏倾向性判断)

多分类问题(将新闻按照主题分类)

回归问题(根据房地产数据估算房地产价格)

实际的背景是这样的：路透社将新闻分为了 46 个互斥的大类，一篇文章可能归属于其中的一类或多类，我们需要做的就是将新闻报道自动归类。问题不是与上一篇一样的非黑即白、非此即彼类型的判断了，而是考虑每篇文章是不同的各个分类的概率。稍加思考，我们就会发现这个问题虽然与上个问题有如上的不同，但是其相同部分其实更多，我们只需根据不同的特殊情况进行一定的更改就好了。具体的内容下面分别说明，相同部分简略说明，如有疑问请阅读上篇文章：

数据与前文一样，都可进行相同的初始化，即按照索引，将文章数据处理为单词索引的序列串，用 one-hot 方法处理向量使其可以为网络所处理。有区别的是这一次的结果，label 也需要处理，因为结果不是两个值，也是一个张量了。

仍然采用 relu 激活的中间层，投射的空间维度不能是 16 了，这里改成 64，原因是因为结果太多，用十六个维度去包含六十四个结果的信息，会在训练的过程中丢失过多的信息，导致准确率会有较大的下降，因此这里采用 64 层。

对于损失函数，上一篇的 binary_crossentropy 就不够用了，需要修改损失函数，sparse_categorical_crossentropy 适用于多分类情况的损失函数，前者与后者之间只是接口上的不同，需要注意一下。

我们仍旧训练 20 次，也出现了上次的问题，过拟合&#