WEKA数据集

本文介绍了WEKA数据集的结构和内容,包括.arff文件的组成,如@relation、@attribute和@data字段。数据集中的属性类型包括numeric、nominal、string和date,且详细说明了如何表示缺失值。此外,还讨论了稀疏数据在处理大量0值时的优势。
摘要由CSDN通过智能技术生成
WEKA数据集:

WEKA所处理的数据集是一个.arff(attribute relation file)为后缀名的二维表。这是一种ASCII文本文件。以%开始的行是注释。
表中具体的内容:
@relation+文件名称
@attribute+属性名和具体的属性值
@data后为每个实例对应的属性值

1、@relation<关系名>,此处关系名是一个字符串 ,如果字符串包含空格,必须加上引号(之英文标点的单引号或者双引号)

2、 属性声明:一系列@attribute开头的语句来表示。数据集中每一个属性都有对应的@attribute来定义它的属性名称和数据类型。
@attribute<属性名><数据类型>:
属性名必须是以字母开头的字符串,和关系名称一样,如果这个字符串包含空格,它必须加上引号。
属性声明语句是顺序很重要,最后一个声明的属性被称class值,在分类或者回归任务中,被默认为目标变量。

3、@data 数据信息:每个实例占一行,实例的各属性值用逗号隔开,某各属性值缺失,用问号表示,切问号不能省略。

4、WEKA支持的数据类型

  • numeric数值型、:整数或者实数
  • nominal-specification标称型、 如:Outlook{sunny,overcast,rainy} 打括号中的就是类别
  • string字符串型、 :可以包含任意文本。
  • data[data-formal]日期和时间型。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值