Weka使用笔记之一

最新推荐文章于 2020-11-20 10:32:30 发布

VIP文章 stevie

最新推荐文章于 2020-11-20 10:32:30 发布

阅读量1.8k

点赞数

分类专栏： IT 文章标签： weka 数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ruidongliu/article/details/8669365

版权

前些日子基于weka初步做了一下文本分类，使用的是最频繁使用的矢量空间模型（Vector Space Model），即假设正负样本在特征空间的分布迥异，基于某种规则将它们转化为矢量，然后训练分类器来区分这些矢量，测试样本来时送进分类器进行分类就行。在我的实验里面，特征降维使用的是基于TFIDF的特征选择，分类器使用的是朴素贝叶斯（naïve bayes）分类器。

前期预处理

编码不一致：由于我的中文样本是从网站各个地方收集来的，因此编码很可能不一致，有的是ANSI，有的是Unicode，需要统一编码便于后续处理。本实验里面，所有的文本都被统一成ANSI编码。下载一个文本编码转换器（TxtEdit）即可转换。

中文分词：由于样本是中文文本，因此需要进行中文分词，包括去掉英文标点符号，停词处理等，现成的工具有计算所开发的汉语分词系统（http://ictclas.org/）等。

Weka进行分类

Weka功能实在是太强大，剩下的事情可以全部交给weka做了。

先引用weka中文论坛的资料介绍下Weka：

WEKA的全名是怀卡托智能分析环境（Waikato Environment for Knowledge Analysis），它的源代码可通过http://www.cs.waikato.ac.nz/ml/weka得到。同时weka也是新西兰的一种鸟名，而WEKA的主要开发者来自新西兰。
WEKA作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Weka使用笔记之一

前些日子基于weka初步做了一下文本分类，使用的是最频繁使用的矢量空间模型（Vector Space Model），即假设正负样本在特征空间的分布迥异，基于某种规则将它们转化为矢量，然后训练分类器来区分这些矢量，测试样本来时送进分类器进行分类就行。在我的实验里面，特征降维使用的是基于TFIDF的特征选择，分类器使用的是朴素贝叶斯（naïve bayes）分类器。前期预处理编码不一致：
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。