文章目录
一、weka简介
Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品–Clementine )的,基于JAVA环境下开源的机器学习(machine learning)以及数据挖掘(data mining)软件。 [ 1 ] _{[1]} [1]
weka不仅可以界面操作,而且提供了Java API和python API。
二、weka安装
weka官网
weka下载
weka的安装包包含:
weka.app为了方便可以复制到“应用程序”里面,weka-3-8-4文件夹包含指导手册、测试数据jar包等内容。
三、常用操作
1、界面初识
常用操作大部分在Explorer里面,其他几个自己可试着用下。
导入数据集之后,会显示数据集的名字、特征数和实例数等基本特征。
2、特征选择(AttributeSelection)
数据集里面的特征并不会全部有效,为了提高分类器的效率,需要先进行特征选择。
选择完特征选择操作后,会使用默认的方法和参数,如果休要需要修改,单击命令文本框就行。
最后apply执行,执行后的结果如下图:
特征由原先的41个变为11个,说明使用这11个特征就能很好的完成分类任务。
3、规范化(Normalize)
和特征选择的操作大体相同,选择路径weka.filters.unsupervised.attribute.Normalize,可以根据自己的需要调整参数
操作完后,某个特征的结果如下:
在Filter这里还可以做离散化和类分布平衡,路径分别是weka.filters.unsupervised.attribute.Discretize和weka.filters.unsupervised.instance.Resample。
4、保存结果
四、python调用接口
weka提供了丰富的Java API,据说用起来特别丝滑。我用python和C++更多些,官方也给提供了解决办法,python主要是通过jvm(Java虚拟机)调用接口。
git上面给出了搭建环境的办法和一些示例:
python-weka-wrapper3
安装过程如下:
在配置jdk时,mac和linux略有不同,安装过的jdk版本都在/Library/Java/JavaVirtualMachines/下,可以在当前用户的~/.bash_profile修改
export jdk15=/Library/Java/JavaVirtualMachines/jdk-15.jdk/Contents/Home
export JAVA_HOME=$jdk15
修改完后source ~/.bash_profile生效。
五、python代码示例
我用的是CM1数据集,经常用于缺陷预测(defect prediction),代码如下:
from weka.core.converters import Loader,Saver
from weka.core.dataset import Instances
import weka.core.jvm as jvm
from weka.filters import AttributeSelection,ASEvaluation,ASSearch
#启动jvm
jvm.start()
#加载文件
loader = Loader(classname="weka.core.converters.ArffLoader")
dataset_path='data/CM1.arff'
#run_time=20
fold_num=10
data = loader.load_file(dataset_path)
#获取训练数据
train_data=data.train_cv(fold_num,0)
#使用filter进行特征选取
search=ASSearch(classname='weka.attributeSelection.GreedyStepwise')
evaluation = ASEvaluation(classname="weka.attributeSelection.CfsSubsetEval")
attsel=AttributeSelection()
attsel.evaluator=evaluation
attsel.search=search
attsel.inputformat(train_data)
#train_data_1=attsel.filter(train_data)
#print(train_data_1)
data_1=attsel.filter(data)
#print(data_1.num_attributes)
#print(data.attribute_names)
print(data_1)
#print(train_data_1)
#print(data)
jvm.stop()
python attsel.py > test.txt进行重定向,将结果写入文件,部分内容如下:
@relation 'CM1-weka.filters.supervised.attribute.AttributeSelection-Eweka.attributeSelection.CfsSubsetEval -P 1 -E 1-Sweka.attributeSelection.GreedyStepwise -T -1.7976931348623157E308 -N -1 -num-slots 1'
@attribute LOC_COMMENTS numeric
@attribute CYCLOMATIC_DENSITY numeric
@attribute DESIGN_COMPLEXITY numeric
@attribute LOC_EXECUTABLE numeric
@attribute HALSTEAD_CONTENT numeric
@attribute NORMALIZED_CYLOMATIC_COMPLEXITY numeric
@attribute NUM_OPERANDS numeric
@attribute NUM_UNIQUE_OPERATORS numeric
@attribute NUMBER_OF_LINES numeric
@attribute PERCENT_COMMENTS numeric
@attribute Defective {Y,N}
与界面操作的结果一致
后续的其他代码也会贴出来。
六、参考文献
[ 1 ] {[1]} [1] weka 百度百科