mac下weka学习和python调用

最新推荐文章于 2022-05-07 10:50:14 发布

洛阳山

最新推荐文章于 2022-05-07 10:50:14 发布

阅读量1.6k

点赞数 3

分类专栏：机器学习文章标签：数据挖掘

本文链接：https://blog.csdn.net/u012949658/article/details/108857539

版权

机器学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

文章目录

一、weka简介

Weka的全名是怀卡托智能分析环境（Waikato Environment for Knowledge Analysis），是一款免费的，非商业化（与之对应的是SPSS公司商业数据挖掘产品–Clementine ）的，基于JAVA环境下开源的机器学习（machine learning）以及数据挖掘（data mining）软件。 $_{[1]}$

weka不仅可以界面操作，而且提供了Java API和python API。

二、weka安装

weka官网
 weka下载
weka的安装包包含：
在这里插入图片描述
weka.app为了方便可以复制到“应用程序”里面，weka-3-8-4文件夹包含指导手册、测试数据jar包等内容。

三、常用操作

1、界面初识

在这里插入图片描述
常用操作大部分在Explorer里面，其他几个自己可试着用下。

在这里插入图片描述
导入数据集之后，会显示数据集的名字、特征数和实例数等基本特征。

2、特征选择（AttributeSelection）

数据集里面的特征并不会全部有效，为了提高分类器的效率，需要先进行特征选择。

在这里插入图片描述

选择完特征选择操作后，会使用默认的方法和参数，如果休要需要修改，单击命令文本框就行。

最后apply执行，执行后的结果如下图：

特征由原先的41个变为11个，说明使用这11个特征就能很好的完成分类任务。

3、规范化（Normalize）

和特征选择的操作大体相同，选择路径weka.filters.unsupervised.attribute.Normalize，可以根据自己的需要调整参数
在这里插入图片描述
操作完后，某个特征的结果如下：

在Filter这里还可以做离散化和类分布平衡，路径分别是weka.filters.unsupervised.attribute.Discretize和weka.filters.unsupervised.instance.Resample。

4、保存结果

在这里插入图片描述

四、python调用接口

weka提供了丰富的Java API，据说用起来特别丝滑。我用python和C++更多些，官方也给提供了解决办法，python主要是通过jvm(Java虚拟机)调用接口。
在这里插入图片描述
git上面给出了搭建环境的办法和一些示例：
python-weka-wrapper3

安装过程如下：
在这里插入图片描述
在配置jdk时，mac和linux略有不同，安装过的jdk版本都在/Library/Java/JavaVirtualMachines/下，可以在当前用户的～/.bash_profile修改

export jdk15=/Library/Java/JavaVirtualMachines/jdk-15.jdk/Contents/Home
export JAVA_HOME=$jdk15

修改完后source ～/.bash_profile生效。

五、python代码示例

我用的是CM1数据集，经常用于缺陷预测（defect prediction），代码如下：

from weka.core.converters import Loader,Saver
from weka.core.dataset import Instances
import weka.core.jvm as jvm
from weka.filters import AttributeSelection,ASEvaluation,ASSearch

#启动jvm
jvm.start()
#加载文件
loader = Loader(classname="weka.core.converters.ArffLoader")
dataset_path='data/CM1.arff'
#run_time=20
fold_num=10
data = loader.load_file(dataset_path)

#获取训练数据
train_data=data.train_cv(fold_num,0)

#使用filter进行特征选取
search=ASSearch(classname='weka.attributeSelection.GreedyStepwise')
evaluation = ASEvaluation(classname="weka.attributeSelection.CfsSubsetEval")
attsel=AttributeSelection()
attsel.evaluator=evaluation
attsel.search=search
attsel.inputformat(train_data)
#train_data_1=attsel.filter(train_data)
#print(train_data_1)
data_1=attsel.filter(data)
#print(data_1.num_attributes)
#print(data.attribute_names)
print(data_1)
#print(train_data_1)
#print(data)

jvm.stop()

python attsel.py > test.txt进行重定向，将结果写入文件，部分内容如下：

@relation 'CM1-weka.filters.supervised.attribute.AttributeSelection-Eweka.attributeSelection.CfsSubsetEval -P 1 -E 1-Sweka.attributeSelection.GreedyStepwise -T -1.7976931348623157E308 -N -1 -num-slots 1'

@attribute LOC_COMMENTS numeric
@attribute CYCLOMATIC_DENSITY numeric
@attribute DESIGN_COMPLEXITY numeric
@attribute LOC_EXECUTABLE numeric
@attribute HALSTEAD_CONTENT numeric
@attribute NORMALIZED_CYLOMATIC_COMPLEXITY numeric
@attribute NUM_OPERANDS numeric
@attribute NUM_UNIQUE_OPERATORS numeric
@attribute NUMBER_OF_LINES numeric
@attribute PERCENT_COMMENTS numeric
@attribute Defective {Y,N}

与界面操作的结果一致
在这里插入图片描述

后续的其他代码也会贴出来。

六、参考文献

${[1]}$ weka 百度百科

洛阳山

关注

3
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
mac下weka学习和python调用

文章目录一、weka简介二、weka安装三、常用操作1、界面初识2、特征选择（AttributeSelection）3、规范化（Normalize）4、保存结果四、python调用接口五、python代码示例六、参考文献一、weka简介Weka的全名是怀卡托智能分析环境（Waikato Environment for Knowledge Analysis），是一款免费的，非商业化（与之对应的是SPSS公司商业数据挖掘产品–Clementine ）的，基于JAVA环境下开源的机器学习（machine le
复制链接

扫一扫