基于汉字字频特征实现99.99%准确率的新闻文本分类器(三)

原创 2016年05月30日 19:27:27


基于汉字字频特征实现99.99%准确率的新闻文本分类器(一)

基于汉字字频特征实现99.99%准确率的新闻文本分类器(二)

基于汉字字频特征实现99.99%准确率的新闻文本分类器(三)

回顾

上一节中,得到了汉字字频特征数据文件,并使用svm-train进行分类。初步得到了98.47%的准确率的二分类模型。本节将加载五层神经网络权值数据...

五层神经网络权值

这是一个比较大的文件,14.3M,压缩为 test.7z 保存在 http://pan.baidu.com/s/1bp2s7d9

文件的MD5校验码是 【319A4D527ECD7E538E6F52FAFE518BB4】

请下载并将其中的数据文件 test.bin 解压缩到D盘根目录下。

然后

源代码

点击下载五层神经网络文本分类源代码:NNR.zip (5.33 kb)

有关此源代码的详细说明,将在后续的文章中详解。现在,先让我们抓紧看到那个传说中的99...%

解压缩并打开其中的NNR.sln项目,如果文件位置都正确的话,直接运行,即可以看到结果:

这时候,一个五层神经网络已经开始忙碌的对汉字字频特征数据文件里的数据进行分类...中....

大约,在我的计算机上是15分钟,能看到结果:

嗯,如你所见,没有复杂的数据清洗,没有分词,没有选择关键词,仅仅使用汉字字频,我们得到了一个99.28%(如果您做过基于词频的中文文本分类项目,您更能体会这个准确率的含义。如果您有疑问,请暂时保持,稍后会详细解释)的分类模型。

小结

先中途总结一下。

目标:对搜狗文本分类语料库中的军事类新闻(C000024)和其它新闻做二分类。基于汉字字频特征,五层神经网络分类器,目前已经粗略的实现了一个99.28%准确率的二分类器。

如果你的反应够快的话,应该已经在等待的时候,打开了 d:\ClassFile\C000007\339.txt 这个文件。嗯,我们先粗略的看一下这些被分类错误的文本。

d:\ClassFile\C000007\339.txt

英国国防部发表声明说,遭到攻击后,作为防卫手段,英军打了3梭实弹

我承认如果让我来分类的话,我也会把这篇文章分入军事类新闻。

我把它们放置到了一个列表中,点击下载 勘误表.zip (9.46 kb)

如果您有耐心,通读这578篇 由五层神经网络给出判断的新闻资讯(这是一件非常费力的事,我承认,在找出了8篇真正分类错误的文章后,我失去了耐心),我相信,您已经有了您心中的答案。

 

下节预告

嗯,本节,我们用五层的人工神经网络模型,实现了一个军事新闻的文本分类器。它给出了99.28%的准确率。但是,如果您读过勘误表,相信您会说,这个勘误表,更像是对搜狗原始数据的勘误。

神经网络模型,没有陷入局部最优解,他近乎完美的完成了工作。如果您有异议,欢迎讨论!请联系我 zhanglei邮箱在qiantec.cn,请在标题注明中文文本分类,谢谢。

下节,我将逐个解释本文章提供的源代码。

 

版权声明:本文为博主原创文章,转载请注明原始链接

基于汉字字频特征实现99.99%准确率的新闻文本分类器(一)

基于中文是表义文字而不是表音文字,我认为直接采用汉字字频作为文本的特征,比词频更能精确描述文本的内容。...
  • zhanglei_nj
  • zhanglei_nj
  • 2016年05月30日 17:00
  • 481

基于汉字字频特征实现99.99%准确率的新闻文本分类器(五)

5层神经网络的泛化能力优异...
  • zhanglei_nj
  • zhanglei_nj
  • 2016年05月31日 14:17
  • 402

基于汉字字频特征实现99.99%准确率的新闻文本分类器(四)

PreData - 文本汉字字频特征向量提取项目代码解读
  • zhanglei_nj
  • zhanglei_nj
  • 2016年05月30日 22:09
  • 239

基于汉字字频特征实现99.99%准确率的新闻文本分类器(二)

汉字字频和多层神经网络将带来99.xx%
  • zhanglei_nj
  • zhanglei_nj
  • 2016年05月30日 19:25
  • 247

朴素贝叶斯新闻分类器详解

引自 http://sobuhu.com/ml/2012/11/11/navie-bayes-classify.html
  • ShiZhixin
  • ShiZhixin
  • 2014年05月16日 11:25
  • 3382

基于Bayes和KNN的newsgroup 18828文本分类器的Python实现

基于Bayes和KNN的newsgroup 18828文本分类器的Python实现 向@yangliuy大牛学习NLP,这篇博客是数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18...
  • liujiandu101
  • liujiandu101
  • 2016年06月21日 17:45
  • 741

使用朴素贝叶斯分类器对新闻文本数据进行类别预测

读取20类新闻文本的数据细节# 从sklearn.datasets里导入新闻数据抓取器fetch_20newsgroup from sklearn.datasets import fetch_20ne...
  • jiezhouzi
  • jiezhouzi
  • 2017年09月15日 13:20
  • 264

根据贝叶斯定理实现的新闻自动分类

参考了网上的一些文章,实现了
  • qiruiduni
  • qiruiduni
  • 2014年08月24日 23:03
  • 1650

汉字字频统计程序(Python版)

用Python写了一个汉字词频统计程序,针对已经分好词的文本。
  • rebellion51
  • rebellion51
  • 2015年06月29日 15:26
  • 1178

评估分类器准确率

分类器准确性估计中,利用训练数据归纳学习获得一个分类器并利用训练数据对所得的分类器预测准确率进行估计,将会得到一个(有关该分类器准确性的)过分乐观且具有误导性的评估结果。 holdout和交叉验...
  • niho
  • niho
  • 2014年06月05日 14:08
  • 1290
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:基于汉字字频特征实现99.99%准确率的新闻文本分类器(三)
举报原因:
原因补充:

(最多只允许输入30个字)