文本分类
文章平均质量分 80
BlockheadLS
乍看之欢,久处不厌。
展开
-
中文分词系统NLPIR(2015版)的Java接口使用学习
前言: 这几天数据挖掘的大作业又用到分词了,首先想到的肯定是中科院的分词系统NLPIR,但是之前用的事2013版的,2015版的有了新的变化。增加了函数和效率自是不必说,由于我是用的java,所以必须使用NLPIR的java接口,NLPIR提供了一个jna的jar包,其实确切来说是打包成了一个bundle,可见NLPIR非常有雄心,以后也必定有更多的功能bundle。此外,新版的原创 2015-11-09 13:51:12 · 1718 阅读 · 1 评论 -
用CHI检验提取文本特征词
0 背景 还是老师的文本分类的大作业。。。在对文本数据集分词并且除去停用词以后,我们就必须进行文本特征词的提取。所谓特征词就是可以代表此篇文章或者此类文章的一些词语。特征词提取的算法有很多,在此篇博客中讲的是CHI检验。CHI检验让我觉得概率论还是没有白学的。。。1 CHI检验基础 卡方检定一个应用的场景是独立性检验。“独立性检定”验证从两个变数抽出的配对观察值组是原创 2015-11-22 14:02:41 · 6735 阅读 · 1 评论 -
用TFIDF给特征词赋权值
0 背景 在上一篇的用CHI检验的文章中我们已经获得了特征词,这些特征词在某一篇文章中出现的频率是不一样的,也可以说词与词的重要性是不一样的。为了标示特征词语的重要程度,就必须赋权重。在本篇文章中,我们使用的方法是TFIDF。1 VSM向量空间模型 哎?不是讲TFIDF吗,怎么会有VSM向量空间模型呢。是这样,在经过CH原创 2015-11-24 22:26:03 · 4251 阅读 · 1 评论 -
LibSVM(java版)的使用
0 准备工作 1)下载一个LibSVM; 2)了解一下SVM的原理还是非常必要的,不然都不知道参数是啥意思。。我看过一篇SVM入门的博客,里面有八讲,分享之。1 LibSVM的使用介绍原创 2015-11-27 22:27:35 · 11657 阅读 · 13 评论