基于汉字字频特征实现99.99%准确率的新闻文本分类器(二)

原创 2016年05月30日 19:25:31


基于汉字字频特征实现99.99%准确率的新闻文本分类器(一)

基于汉字字频特征实现99.99%准确率的新闻文本分类器(二)

基于汉字字频特征实现99.99%准确率的新闻文本分类器(三)

回顾

上一节中,已经下载解压了八万个文本文件在D盘的的ClassFile目录下。

本节,将提取它们的字频特征,并进行分类。我们将看到传说中的99.xx%......

源代码

点击下载生成字频特征数据文件的源代码:PreData.zip (15.57 kb)

有关此源代码的详细说明,将在后续的文章中详解。现在,先让我们抓紧看到那个传说中的99...%

首先,解压缩源代码,然后打开其中的PreData.sln项目文件

当VS加载了项目后(如果计算机是老版本的VS并且没有.Net Framework 4.5的话,点击修改为.Net Framework 4.0),保证D盘有足够的剩余空间(700M左右)点击三角形,即可编译代码,并运行汉字字频特征抽取程序。

程序将会加载D盘ClassFile目录下的文本数据,进行二次扫描。并生成特征数据。

激动人心第一次

激动人心的时刻要来临了,有了数据,就可以...

我们先用流行的libSvm工具包中的svm-train.exe工具(libsvm官网下载)进行一次训练,看看这次的特征数据能带来什么惊喜。如下图所示,输入命令 svm-train.exe -v 4 -c 1000 data.txt

参数含义:将八万条特征数据分成四份,交叉验证,惩罚系数1000。

经过漫长(在笔者的计算机上是约一个小时)的等待,我们得到了:

恩,这个结果,可是传统的词频方式的特征很难达到的。而且,是在我们对数据没有进行复杂的数据清洗的前提下,粗犷的得到的。

好吧,我承认,这个数据和99.xx%还有0.xx%的距离。那就让我们再向前迈出一小步吧。

下节预告

嗯,本节,我们生成了基于汉字字频的特征数据集,并且,我们什么都没有额外做的情况下,用SVM的训练工具,得到了一个离99%是那么近的一个模型。

下一节,我们将祭出一个五层的人工神经网络模型。他将带来....

太晚了,休息先。

基于汉字字频特征实现99.99%准确率的新闻文本分类器(三)

版权声明:本文为博主原创文章,转载请注明原始链接

基于汉字字频特征实现99.99%准确率的新闻文本分类器(五)

5层神经网络的泛化能力优异...

基于汉字字频特征实现99.99%准确率的新闻文本分类器(一)

基于中文是表义文字而不是表音文字,我认为直接采用汉字字频作为文本的特征,比词频更能精确描述文本的内容。...

基于汉字字频特征实现99.99%准确率的新闻文本分类器(四)

PreData - 文本汉字字频特征向量提取项目代码解读

基于汉字字频特征实现99.99%准确率的新闻文本分类器(三)

五层人工神经网络对汉字字频特征的分类效果令人...

新闻推荐系统之朴素贝叶斯分类器文本分类

因为最近需要为自己团队的项目开发新闻推荐的功能模块,在推荐算法这一块涉及到了基于内容的推荐算法(Content-Based Recommendation),因此用到了朴素贝叶斯来对抓取的新闻进行分类,...

【机器学习实战】网格搜索--贝叶斯新闻文本分类器调优

#对文本分类的朴素贝叶斯模型的超参数组合进行网格搜索 #从sklearn.datasets中导入20类新闻文本抓取器 from sklearn.datasets import fetch_20news...

贝叶斯算法实现文本分类器

  • 2011年12月16日 17:42
  • 727KB
  • 下载

数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文本分类器的JAVA实现(上)

(update 2012.12.28 关于本项目下载及运行的常见问题 FAQ见 newsgroup18828文本分类器、文本聚类器、关联分析频繁模式挖掘算法的Java实现工程下载及运行FAQ )本文主...
  • yangliuy
  • yangliuy
  • 2012年03月27日 23:06
  • 31596
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:基于汉字字频特征实现99.99%准确率的新闻文本分类器(二)
举报原因:
原因补充:

(最多只允许输入30个字)