mac下weka学习和python调用

一、weka简介

Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品–Clementine )的,基于JAVA环境下开源的机器学习(machine learning)以及数据挖掘(data mining)软件。 [ 1 ] _{[1]} [1]

weka不仅可以界面操作,而且提供了Java API和python API。

二、weka安装

weka官网
weka下载
weka的安装包包含:
在这里插入图片描述
weka.app为了方便可以复制到“应用程序”里面,weka-3-8-4文件夹包含指导手册、测试数据jar包等内容。
在这里插入图片描述

三、常用操作

1、界面初识

在这里插入图片描述
常用操作大部分在Explorer里面,其他几个自己可试着用下。

在这里插入图片描述
导入数据集之后,会显示数据集的名字、特征数和实例数等基本特征。

2、特征选择(AttributeSelection)

数据集里面的特征并不会全部有效,为了提高分类器的效率,需要先进行特征选择。

在这里插入图片描述
在这里插入图片描述
选择完特征选择操作后,会使用默认的方法和参数,如果休要需要修改,单击命令文本框就行。
在这里插入图片描述
在这里插入图片描述
最后apply执行,执行后的结果如下图:
在这里插入图片描述
特征由原先的41个变为11个,说明使用这11个特征就能很好的完成分类任务。

3、规范化(Normalize)

和特征选择的操作大体相同,选择路径weka.filters.unsupervised.attribute.Normalize,可以根据自己的需要调整参数
在这里插入图片描述
操作完后,某个特征的结果如下:
在这里插入图片描述
在Filter这里还可以做离散化和类分布平衡,路径分别是weka.filters.unsupervised.attribute.Discretize和weka.filters.unsupervised.instance.Resample。

4、保存结果

在这里插入图片描述

四、python调用接口

weka提供了丰富的Java API,据说用起来特别丝滑。我用python和C++更多些,官方也给提供了解决办法,python主要是通过jvm(Java虚拟机)调用接口。
在这里插入图片描述
git上面给出了搭建环境的办法和一些示例:
python-weka-wrapper3

安装过程如下:
在这里插入图片描述
在配置jdk时,mac和linux略有不同,安装过的jdk版本都在/Library/Java/JavaVirtualMachines/下,可以在当前用户的~/.bash_profile修改

export jdk15=/Library/Java/JavaVirtualMachines/jdk-15.jdk/Contents/Home
export JAVA_HOME=$jdk15

修改完后source ~/.bash_profile生效。

五、python代码示例

我用的是CM1数据集,经常用于缺陷预测(defect prediction),代码如下:

from weka.core.converters import Loader,Saver
from weka.core.dataset import Instances
import weka.core.jvm as jvm
from weka.filters import AttributeSelection,ASEvaluation,ASSearch

#启动jvm
jvm.start()
#加载文件
loader = Loader(classname="weka.core.converters.ArffLoader")
dataset_path='data/CM1.arff'
#run_time=20
fold_num=10
data = loader.load_file(dataset_path)

#获取训练数据
train_data=data.train_cv(fold_num,0)

#使用filter进行特征选取
search=ASSearch(classname='weka.attributeSelection.GreedyStepwise')
evaluation = ASEvaluation(classname="weka.attributeSelection.CfsSubsetEval")
attsel=AttributeSelection()
attsel.evaluator=evaluation
attsel.search=search
attsel.inputformat(train_data)
#train_data_1=attsel.filter(train_data)
#print(train_data_1)
data_1=attsel.filter(data)
#print(data_1.num_attributes)
#print(data.attribute_names)
print(data_1)
#print(train_data_1)
#print(data)

jvm.stop()

python attsel.py > test.txt进行重定向,将结果写入文件,部分内容如下:

@relation 'CM1-weka.filters.supervised.attribute.AttributeSelection-Eweka.attributeSelection.CfsSubsetEval -P 1 -E 1-Sweka.attributeSelection.GreedyStepwise -T -1.7976931348623157E308 -N -1 -num-slots 1'

@attribute LOC_COMMENTS numeric
@attribute CYCLOMATIC_DENSITY numeric
@attribute DESIGN_COMPLEXITY numeric
@attribute LOC_EXECUTABLE numeric
@attribute HALSTEAD_CONTENT numeric
@attribute NORMALIZED_CYLOMATIC_COMPLEXITY numeric
@attribute NUM_OPERANDS numeric
@attribute NUM_UNIQUE_OPERATORS numeric
@attribute NUMBER_OF_LINES numeric
@attribute PERCENT_COMMENTS numeric
@attribute Defective {Y,N}

与界面操作的结果一致
在这里插入图片描述

后续的其他代码也会贴出来。

六、参考文献

[ 1 ] {[1]} [1] weka 百度百科

  • 3
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值