Weka学习四（属性选择）

最新推荐文章于 2023-04-22 19:28:58 发布

aalbertini

最新推荐文章于 2023-04-22 19:28:58 发布

阅读量1.8k

点赞数

分类专栏： dm 文章标签： attributes 算法 file exception 数据挖掘 search

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aalbertini/article/details/5749682

版权

dm 专栏收录该内容

51 篇文章 0 订阅

订阅专栏

在这一节我们看看属性选择。在数据挖掘的研究中，通常要通过距离来计算样本之间的距离，而样本距离是通过属性值来计算的。我们知道对于不同的属性，它们在样本空间的权重是不一样的，即它们与类别的关联度是不同的，因此有必要筛选一些属性或者对各个属性赋一定的权重。这样属性选择的方法就应运而生了。

在属性选择方面InfoGain和GainRatio的比较常见，也是最通俗易懂的方法。它们与Decision Tree的构造原理比较相似，哪个节点拥有的信息量就为哪个节点赋较高的权重。其它的还有根据关联度的办法来进行属性选择（Correlation-based Feature Subset Selection for Machine Learning）。具体它的工作原理大家可以在网上看论文。

现在我将简单的属性选择实例给大家展示一下：

package com.csdn;

import java.io.File;

import weka.attributeSelection.InfoGainAttributeEval;

import weka.attributeSelection.Ranker;

import weka.classifiers.Classifier;

import weka.core.Instances;

import weka.core.converters.ArffLoader;

/*

* Date: 2009.4.4

* by: Wang Yi

* Email: wangyi19840906@yahoo.com.cn

* QQ: 270135367

*

*/

public class SimpleAttributeSelection {

/**

* @param args

*/

public static void main(String[] args) {

// TODO Auto-generated method stub

Instances trainIns = null;

try{

/*

* 1.读入训练

* 在此我们将训练样本和测试样本是由weka提供的segment数据集构成的

*/

File file= new File("C://Program Files//Weka-3-6//data//segment-challenge.arff");

ArffLoader loader = new ArffLoader();

loader.setFile(file);

trainIns = loader.getDataSet();

//在使用样本之前一定要首先设置instances的classIndex，否则在使用instances对象是会抛出异常

trainIns.setClassIndex(trainIns.numAttributes()-1);

/*

* 2.初始化搜索算法（search method）及属性评测算法（attribute evaluator）

*/

Ranker rank = new Ranker();

InfoGainAttributeEval eval = new InfoGainAttributeEval();

/*

* 3.根据评测算法评测各个属性

*/

eval.buildEvaluator(trainIns);

//System.out.println(rank.search(eval, trainIns));

/*

* 4.按照特定搜索算法对属性进行筛选

* 在这里使用的Ranker算法仅仅是属性按照InfoGain的大小进行排序

*/

int[] attrIndex = rank.search(eval, trainIns);

/*

* 5.打印结果信息

* 在这里我们了属性的排序结果同时将每个属性的InfoGain信息打印出来

*/

StringBuffer attrIndexInfo = new StringBuffer();

StringBuffer attrInfoGainInfo = new StringBuffer();

attrIndexInfo.append("Selected attributes:");

attrInfoGainInfo.append("Ranked attributes:/n");

for(int i = 0; i < attrIndex.length; i ++){

attrIndexInfo.append(attrIndex[i]);

attrIndexInfo.append(",");

attrInfoGainInfo.append(eval.evaluateAttribute(attrIndex[i]));

attrInfoGainInfo.append("/t");

attrInfoGainInfo.append((trainIns.attribute(attrIndex[i]).name()));

attrInfoGainInfo.append("/n");

}

System.out.println(attrIndexInfo.toString());

System.out.println(attrInfoGainInfo.toString());

}catch(Exception e){

e.printStackTrace();

}

}

}

在这个实例中，我用了InfoGain的属性选择类来进行特征选择。InfoGainAttributeEval主要是计算出各个属性的InfoGain信息。同时在weka中为属性选择方法配备的有搜索算法（seacher method），在这里我们用最简单的Ranker类。它对属性进行了简单的排序。在Weka中我们还可以对搜索算法设置一些其它的属性，例如设置搜索的属性集，阈值等等，如果有需求大家可以进行详细的设置。

在最后我们打印了一些结果信息，打印了各个属性的InfoGain的信息。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Weka学习四（属性选择）

<br />在这一节我们看看属性选择。在数据挖掘的研究中，通常要通过距离来计算样本之间的距离，而样本距离是通过属性值来计算的。我们知道对于不同的属性，它们在样本空间的权重是不一样的，即它们与类别的关联度是不同的，因此有必要筛选一些属性或者对各个属性赋一定的权重。这样属性选择的方法就应运而生了。<br />在属性选择方面InfoGain和GainRatio的比较常见，也是最通俗易懂的方法。它们与Decision Tree的构造原理比较相似，哪个节点拥有的信息量就为哪个节点赋较高的权重。其它的还有根据关联度的办
复制链接

扫一扫

专栏目录

aalbertini CSDN认证博客专家 CSDN认证企业博客

码龄17年

254: 原创

13万+: 周排名

182万+: 总排名

53万+: 访问

: 等级

7974: 积分

55: 粉丝

11: 获赞

91: 评论

53: 收藏

私信

关注

热门文章

分类专栏

c/c++ 31篇
dm 51篇
java 2篇
linux/unix 35篇
math 5篇
oracle 3篇
search 1篇
sh 4篇
topcode 4篇
分布式 13篇
数据结构 10篇
杂 7篇
网络 6篇
cocos2d-x 4篇
lua/c++
cg 1篇
shader 4篇
cg
egl
libco 2篇

最新评论

boost asio 性能与线程安全性
aalbertini 回复 yezishuang: 一个socket上的读和写不需要互斥。两者没有竞争任何东西。读读，写写是可能竞争内部缓冲区所以需要同步
boost asio 性能与线程安全性
yezishuang: 一个io，多个线程，要不要考虑读写互斥呢？ (原则:写完一条再写下一条，读完一条再读下一条)
asio strand为什么比mutex好
aalbertini 回复 sidemap: 不适用strand，你就得为每个handler对象自己加锁。 handler个数可能上万、十万个。使用strand，无需为handler对象使用锁。实际上锁的个数不需要与handler个数相关。
asio strand为什么比mutex好
sidemap: 讲的什么，没有看明白
protobuf中 repeated[Ptr]Field的序列化
qq_29689609: IstreamInputStream 这是个啥

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。