数据挖掘
py79hn
数据挖掘机器学习
展开
-
weka文本分类的试验
试验机器是i686平台32位ubuntu系统,500G ROM,4G RAM,1.46GHZ 双核CPU1.下载weka数据挖掘软件,安装到系统,将weka.jar添加到classpath环境变量当中2.下载文本数据集使用的是路透新闻语料Reuters21578,直接下载的数据集不适合weka处理,需要转换成arff格式。可以从此处下载厦门大学邹博士已经处理好的数据原创 2013-05-11 00:27:16 · 2572 阅读 · 0 评论 -
文本挖掘的大致理解
文本挖掘的基本过程:1.文本分析主要就是对文本进行分词处理(去标点,去停用词,词干处理),找出有含义的最小单位--词。实例: 提高全体居民的生产生活水平(1)提高 高全 全体体居 居民 名的 的生 生产 产生 生活 活水 水平(2)提高 全体居民 的 生产 生活 水平(3)提高 全体 居民 的 生产 生活 水平......哪种是最好的分割呢?原创 2013-05-10 15:01:19 · 1147 阅读 · 0 评论