1.1模块划分
weka采用maven作为构建工具,从module划分的角度,是个单module系统,但是weka的从package划分上体现了“关注点分离”。
各package关注点(职责划分)如下:
分类 | package name | 职责 |
---|---|---|
算法 | associations | 关联规则算法 |
attributeSelection | 属性选择算法 | |
classifiers | 分类算法 | |
clusterers | 聚类算法 | |
底层基础服务 | core | |
数据预处理 | filters | 数据过滤、变换 |
常见分布估计 | estimators | |
数据生成器 | datagenerators | 按照指定的规则生成数据 |
易用性部分 | experiment | |
gui | 用户界面 | |
Knowledgeflow | 工作流支撑系统 |
1.2core package分析
1.2.1 数据表示
逻辑上,挖掘算法将数据集(DataSet)认为是“二维表”。
Weka中对应关系如下:
概念 | Weka 实现 | 备注 |
---|---|---|
属性 | Attribute | |
属性元信息 | A |