个人推荐的Weka教程,包含了数据格式、数据准备、分类和聚类Demo

出处:http://irwenqiang.iteye.com/blog/1308834




WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过http://www.cs.waikato.ac.nz/ml/weka得到

 

      同时weka也是新西兰的一种鸟名,而WEKA的主要开发者来自新西兰。

 

      WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。如果想自己实现数据挖掘算法的话,可以看一看weka的接口文档。在weka中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。

 

      我学习的过程中会持续把有用的教材上传...

 

 

------

调用weka API写了两个java程序,很基本:

Java代码   收藏代码
  1. package cn.edu.xmu.bdm.wekainjava.test;  
  2.   
  3. import java.io.FileReader;  
  4. import weka.core.Instances;  
  5.   
  6. /** 
  7.  * desc:试试Weka中最基本最重要的Instance类 
  8.  * <code>InstanceTest</code> 
  9.  * @version 1.0 2011/12/13 
  10.  * @author chenwq 
  11.  * 
  12.  */  
  13. public class InstanceTest {  
  14.     public static Instances getFileInstances(String fileName) throws Exception {  
  15.         FileReader frData = new FileReader(fileName);  
  16.         Instances data = new Instances(frData);  
  17.   
  18.         return data;  
  19.     }  
  20.   
  21.     public static void main(String[] args) throws Exception {  
  22.         Instances instances = getFileInstances("C:\\Program Files\\Weka-3-6\\data\\bank-data-final.arff");  
  23.   
  24.         // 把数据集全部输入出  
  25.         // System.out.println( instances );  
  26.   
  27.         // 用numInstances可以获得数据集中有多少样本  
  28.         for (int i = 0; i < instances.numInstances(); i++) {  
  29.   
  30.             // instance( i )是得到第i个样本  
  31.             System.out.println(instances.instance(i));  
  32.         }  
  33.     }  
  34. }  

 

 

 

Java代码   收藏代码
  1. package cn.edu.xmu.bdm.wekainjava.test;  
  2.   
  3. /** 
  4.  * desc:试试Weka的决策树类 
  5.  * <code>J48Test</code> 
  6.  * @version 1.0 2011/12/13 
  7.  * @author chenwq 
  8.  * 
  9.  */  
  10. import java.io.File;  
  11. import java.io.IOException;  
  12.   
  13. import weka.classifiers.Classifier;  
  14. import weka.classifiers.trees.J48;  
  15. import weka.core.Instances;  
  16. import weka.core.converters.ArffLoader;  
  17.   
  18. public class J48Test {  
  19.   
  20.     /** 
  21.      * @param args 
  22.      * @throws Exception  
  23.      */  
  24.     public static void main(String[] args) throws Exception {  
  25.          Classifier m_classifier = new J48();  
  26.             File inputFile = new File("C:\\Program Files\\Weka-3-6\\data\\cpu.with.vendor.arff");//训练语料文件  
  27.             ArffLoader atf = new ArffLoader();   
  28.             atf.setFile(inputFile);  
  29.             Instances instancesTrain = atf.getDataSet(); // 读入训练文件      
  30.             inputFile = new File("C:\\Program Files\\Weka-3-6\\data\\cpu.with.vendor.arff");//测试语料文件  
  31.             atf.setFile(inputFile);            
  32.             Instances instancesTest = atf.getDataSet(); // 读入测试文件  
  33.             instancesTest.setClassIndex(0); //设置分类属性所在行号(第一行为0号),instancesTest.numAttributes()可以取得属性总数  
  34.             double sum = instancesTest.numInstances(),//测试语料实例数  
  35.             right = 0.0f;  
  36.             instancesTrain.setClassIndex(0);  
  37.              m_classifier.buildClassifier(instancesTrain); //训练             
  38.             for(int  i = 0;i<sum;i++)//测试分类结果  
  39.             {  
  40.                 if(m_classifier.classifyInstance(instancesTest.instance(i))==instancesTest.instance(i).classValue())//如果预测值和答案值相等(测试语料中的分类列提供的须为正确答案,结果才有意义)  
  41.                 {  
  42.                   right++;//正确值加1  
  43.                 }  
  44.             }  
  45.             System.out.println("J48 classification precision:"+(right/sum));  
  46.   
  47.   
  48.     }  
  49.   
  50. }  

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值