weka源代码分析-总述

最新推荐文章于 2018-06-02 23:40:17 发布

liangliang8086

最新推荐文章于 2018-06-02 23:40:17 发布

阅读量2k

点赞数

分类专栏： weka源代码分析文章标签： weka 源代码分析 weka源代码分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liangliang8086/article/details/8648372

版权

weka源代码分析专栏收录该内容

3 篇文章 0 订阅

订阅专栏

WEKA作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类，回归、聚类、关联规则以及在新的交互式界面上的可视化。

Weka是一个开源的软件，阅读并理解其源代码可以帮助我们更好的理解算法的细节，同时也能够扩展其算法以获得更广泛的应用。但是现在公开的资料中对weka源代码分析的内容很少，所以本博客推出weka源代码分析系列，将针对weka中实现各种算法分析器实现细节。

本系列根据weka功能的划分主要分析器分类算法、聚类算法、规则挖掘等，分别介绍其中的各个算法，最后介绍如何对weka进行扩展。

本系列主要分析weka3.7.6版本

本文首先概要列出分类、聚类以及规则挖掘等主要实现的算法以及类结构关系，以便有个大致的了解。

分类：

所有的分类器都继承自抽象类AbstractClassifier而AbstractClassifier继承自接口Classifier。集成关系如下图所示：

而类Classifier中主要包含以下接口：

public abstract voidbuildClassifier(Instances data) throws Exception;

该方法主要用于根据样本数据data训练出分类器；

public double classifyInstance(Instanceinstance) throws Exception;

该方法是对样本instance进行分类并返回最有可能的类；

public double[] distributionForInstance(Instanceinstance) throws Exception;

对样本instance进行分类，如果分类成功则返回的数组值包含该类别，否则数组元素全为0；

所有的classifier必须实现classifyInstance或distributionForInstance。

聚类：

所有的聚类算法都集成自AbstractClusterer，而AbstractClusterer继承自接口Clusterer，主要调用关系如下：

Clusterer主要实现的接口如下：

voidbuildClusterer(Instances data) throws Exception;

根据样本数据训练聚类算法；

intclusterInstance(Instance instance) throws Exception;

public double[]distributionForInstance(Instance instance) throws Exception;

为实例归类；

intnumberOfClusters() throws Exception;

返回聚类个数；

同样所有的聚类算法都必须实现clusterInstance或distributionForInstance。

规则挖掘：

关联规则主要实现的算法有Apriori，Fpgrowth等，

类关系如下：

Associator中主要实现

voidbuildAssociations(Instances data) throws Exception;

该方法主要用于生成规则生成器。

对于以上所列的算法的实现细节以及其他的诸如数据预处理、可视化等的代码后面会一一详细列出。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

liangliang8086 CSDN认证博客专家 CSDN认证企业博客

码龄12年

8: 原创

123万+: 周排名

159万+: 总排名

3万+: 访问

: 等级

403: 积分

2: 粉丝

3: 获赞

5: 评论

24: 收藏

私信

关注

热门文章

分类专栏

weka源代码分析 3篇
机器学习 2篇
scala 3篇
spark 3篇
c++ 1篇
面试题 1篇

最新评论

Spark Softmax
kvnew: 博主，你好，这个code能够支持1000w维度和1000w样本吗？
c++面试题：判断数组是否存在重复元素
StarOldAccount: 我在鸿网互联上看到了与您文章一字不差的另一篇文章,发表时间是2015年7月8日,晚于您的博客发表时间,作者未指出,高度怀疑是抄袭您的博客,特此知会一声.网址如下: https://www.baidu.com/link?url=iLjRDkcEClXBIy4TFdBXchI93V31eLeAa8r7lCfhzv4FjuEYfLcv82ykL5ms8WEoZ6GrHiZ25qF3_CSLL3vt8hDpexsZSYovDF4ew8EPY07&wd=&eqid=b63823300001004e00000006580b6227
Spark Softmax
zengjiancang: 博主您好，请问这个可以处理缺失值吗？
Spark Softmax
liangliang8086 回复 z8596300: 数据就用libsvm格式的就可以，这里有：https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/
Spark Softmax
z8596300: 博主你好，你使用的数据集能给我发一份么谢谢了！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。