基于汉字字频特征实现99.99%准确率的新闻文本分类器(三)

原创 2016年05月30日 19:27:27


基于汉字字频特征实现99.99%准确率的新闻文本分类器(一)

基于汉字字频特征实现99.99%准确率的新闻文本分类器(二)

基于汉字字频特征实现99.99%准确率的新闻文本分类器(三)

回顾

上一节中,得到了汉字字频特征数据文件,并使用svm-train进行分类。初步得到了98.47%的准确率的二分类模型。本节将加载五层神经网络权值数据...

五层神经网络权值

这是一个比较大的文件,14.3M,压缩为 test.7z 保存在 http://pan.baidu.com/s/1bp2s7d9

文件的MD5校验码是 【319A4D527ECD7E538E6F52FAFE518BB4】

请下载并将其中的数据文件 test.bin 解压缩到D盘根目录下。

然后

源代码

点击下载五层神经网络文本分类源代码:NNR.zip (5.33 kb)

有关此源代码的详细说明,将在后续的文章中详解。现在,先让我们抓紧看到那个传说中的99...%

解压缩并打开其中的NNR.sln项目,如果文件位置都正确的话,直接运行,即可以看到结果:

这时候,一个五层神经网络已经开始忙碌的对汉字字频特征数据文件里的数据进行分类...中....

大约,在我的计算机上是15分钟,能看到结果:

嗯,如你所见,没有复杂的数据清洗,没有分词,没有选择关键词,仅仅使用汉字字频,我们得到了一个99.28%(如果您做过基于词频的中文文本分类项目,您更能体会这个准确率的含义。如果您有疑问,请暂时保持,稍后会详细解释)的分类模型。

小结

先中途总结一下。

目标:对搜狗文本分类语料库中的军事类新闻(C000024)和其它新闻做二分类。基于汉字字频特征,五层神经网络分类器,目前已经粗略的实现了一个99.28%准确率的二分类器。

如果你的反应够快的话,应该已经在等待的时候,打开了 d:\ClassFile\C000007\339.txt 这个文件。嗯,我们先粗略的看一下这些被分类错误的文本。

d:\ClassFile\C000007\339.txt

英国国防部发表声明说,遭到攻击后,作为防卫手段,英军打了3梭实弹

我承认如果让我来分类的话,我也会把这篇文章分入军事类新闻。

我把它们放置到了一个列表中,点击下载 勘误表.zip (9.46 kb)

如果您有耐心,通读这578篇 由五层神经网络给出判断的新闻资讯(这是一件非常费力的事,我承认,在找出了8篇真正分类错误的文章后,我失去了耐心),我相信,您已经有了您心中的答案。

 

下节预告

嗯,本节,我们用五层的人工神经网络模型,实现了一个军事新闻的文本分类器。它给出了99.28%的准确率。但是,如果您读过勘误表,相信您会说,这个勘误表,更像是对搜狗原始数据的勘误。

神经网络模型,没有陷入局部最优解,他近乎完美的完成了工作。如果您有异议,欢迎讨论!请联系我 zhanglei邮箱在qiantec.cn,请在标题注明中文文本分类,谢谢。

下节,我将逐个解释本文章提供的源代码。

 

版权声明:本文为博主原创文章,转载请注明原始链接

相关文章推荐

基于汉字字频特征实现99.99%准确率的新闻文本分类器(五)

5层神经网络的泛化能力优异...

基于汉字字频特征实现99.99%准确率的新闻文本分类器(一)

基于中文是表义文字而不是表音文字,我认为直接采用汉字字频作为文本的特征,比词频更能精确描述文本的内容。...

基于汉字字频特征实现99.99%准确率的新闻文本分类器(四)

PreData - 文本汉字字频特征向量提取项目代码解读

新闻推荐系统之朴素贝叶斯分类器文本分类

因为最近需要为自己团队的项目开发新闻推荐的功能模块,在推荐算法这一块涉及到了基于内容的推荐算法(Content-Based Recommendation),因此用到了朴素贝叶斯来对抓取的新闻进行分类,...

贝叶斯算法实现文本分类器

  • 2011年12月16日 17:42
  • 727KB
  • 下载

【机器学习实战】网格搜索--贝叶斯新闻文本分类器调优

#对文本分类的朴素贝叶斯模型的超参数组合进行网格搜索 #从sklearn.datasets中导入20类新闻文本抓取器 from sklearn.datasets import fetch_20news...

kNN文本分类器实现

本人本科毕业设计题目为:《基于摘要词频信息的论文分类方法的研究和实现》,属于文本分类(Text Classification)方面的内容。本人实现了kNN文本分类器,使用语言为Matlab(因为该脚本...

基于weka的文本分类器

  • 2016年03月12日 15:48
  • 17.53MB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:基于汉字字频特征实现99.99%准确率的新闻文本分类器(三)
举报原因:
原因补充:

(最多只允许输入30个字)