WEKA——数据挖掘与机器学习工具

子将父做马,父愿子成龙

参考书籍

《数据挖掘与机器学习WEKA应用技术与实践》袁梅宇 编著
《数据挖掘:使用机器学习工具与技术》

Weka功能

Weka 主界面称为Weka GUI 选择器。

  1. Explorer(探索者):通过选择菜单和填写表单可以调用Weka的所有功能。不过存在一些问题就是,要求它所需的数据需要一次性全部读入内存。
  2. KnowledgeFlow(知识流):可以使用增量方式的算法处理大型数据集,用户可以绘制处理数据流的方式和顺序。
  3. Experimenter(实验者):用于帮助用户解答实际应用分类和回归技术中遇到的一个基本问题——对于一个已知问题,哪种方法及参数值能够取得最佳效果。
  4. Simple CLI(简单命令行界面):为不提供自己命令行界面的操作系统提供的,该简单的命令行界面用于和用户进行交互,可以直接执行Weka命令。
    • CLI(command-line interface)

机器学习分类
机器学习分为两种主要类型:有监督学习和无监督学习。 有监督的学习是指在给定的一系列的I&O实例构成的数据集的条件下,学习输入 x 到输出y的映射关系。这里的数据集合称为训练集,实例个数称为样本个数。 无监督学习有时候也称为知识发现、描述学习。这类问题并没有明确的定义,因为我们不知道要寻找什么样的模式,也没有明显的误差度量可供使用。
数据和数据集
数据视为是待处理的数据对象的集合。数据对象有多个别名如记录、行、向量、点、样本、案例等;数据对象的描述可以用对象的基本特征属性来描述,属性也有多个别名如变量、字段、列、维、特征等。 属性可以分为四种类型:标称(nominal)、序数(ordinal)、区间(interval)和比率(ratio)。其中,标称属性的值不仅仅是不同的名称,标称值仅提供区分对象足够的信息,如性别(男、女)、颜色(红、绿、蓝)、天气(阴、晴、雨、多云)等;序数属性的值可以提供确定对象顺序的足够信息,如成绩等级(优良中差)、职称(初中高)、学生(本硕博)等;区间属性的值之间的差是有意义的,即存在度量单位,如温度、日历日期等;比率属性的值之间的差和比值都是意义的,如绝对温度、年龄、长度、成绩分数等。

标称属性和序数属性统称为分类或者定性属性。他们的取值为集合,即使使用数值来表示,要不具备数的大部分的性质,因此,应该像对待符号一样对待;区间属性和比率属性称为定量活数值属性,定量属性采用数值来表示,具备数的大部分性质,可以使用整数值或连续值来表示。

  • ARFF(Attribute-Relation File Format)属性-关系文件格式。
    数据集是实例的集合,每个实例包含一定的属性。
    @relation weather
    定义内部数据集的名称
    @attribute outlook {sunny, overcast, rainy}
    定义标称型属性 给出预定义取值空间
    @attribute temperature real
    定义数值型属性,real类型
    @data
    各行构成数据集合,每一个实例样本用“,”分隔的值组成,顺序和 @attribute中定义的属性顺序一致。
数据预处理
避免数据质量问题
  • 数据质量问题的检测和纠正:在数据挖掘之前检测并且纠正数据的一些质量问题,这个过程叫做数据预处理。
  • 使用能够容忍低质量数据的算法:提高算法的健壮性。

     数据预处理的一些技术:聚集、抽样、维度归纳、属性选择、属性创建、离散化和二元化、变量变换。
    
Weka版本使用
首先下载最新版的适合自己系统的[版本](http://www.cs.waikato.ac.nz/ml/weka/downloading.html)
  1. 使用weka包管理器:从包管理器GUI进入管理页面,然后进行install。如果出现无法连接和超时链接的问题,这是因为包所在的SF网站有容量限制,该网站因为用户过多不堪重负。解决办法:找到C:\Users***\wekafiles\props目录之后,在目录中创建一个PackageRepository的文本文件,在第一行加入如下的内容weka.core.wekaPackageRepositoryURL=http://www.cs.waikato.ac.nz/ml/weka/packageMetaData

  2. 使用UTF-8数据集或者文件在RunWEKA.ini文件中修改fileEncoding=Cp1252改成fileEncoding=UTF-8。

  3. Weka访问数据库
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值