基于CNN+tensorflow训练50000条新闻文本并实现分类

1、本文作者学习了前辈的研究
《Implementing a CNN for Text Classification in TensorFlow》以及github作者的实验,使用THUCNews的一个子集进行训练与测试。THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。非常感激前辈及学习过程中的伙伴。
github地址:
https://github.com/gaussic/text-classification-cnn-rnn#text-classification-with-cnn-and-rnn

cnew文件夹数据说明:
cnews.train.txt: 训练集(50000条)
cnews.val.txt: 验证集(5000条)
cnews.test.txt: 测试集(10000条)
cnews.vocab.txt:词汇表(5000个)
共有10个类别。
下载链接:https://pan.baidu.com/s/1u4fjHg2B9zdaejvAK_iP1w
提取码:6ubq

其中声明一下:用CNN进行文本分类不用进行分词和词性标注,整个过程最核心的部分是embedding(词嵌入)层的构建,其目的在于把每个句子用向量来表示,又要避免计算量过大,不得不做一些特殊处理。

2、数据预处理过程如下&#

已标记关键词 清除标记
©️2020 CSDN 皮肤主题: 创作都市 设计师:CSDN官方博客 返回首页