如何使用UCI数据集

UCI数据集是一个常用的机器学习标准测试数据集。 地址: http://www.ics.uci.edu/~mlearn

以Iris鸢尾花数据集为例:

1.Iris数据集在右边方框【Most Popular Data Sets (hits since 2007)】中第一个。
UCI数据集网站

2.点击Iris数据集,进入该数据集详情页面:
Iris数据集详情

上面是这个数据集的详细信息:多变量数据集,没有缺失值,也许是模式识别文献中最著名的数据集等等,再往下是与该数据集相关的一些论文。

3.回到上面的图片处,左边【Data Folder】是存放该数据集的位置,【Data Set Description】是数据集的描述,点击进入【Data Folder】。

4.该文件夹中有三个文件:【Index】、【iris.data】和【iris.names】(忽略【bezdekIris.data】)。

  • Index为文件夹目录,列出了本文件夹里的所有文件。如iris中index的内容如下:
    Index of iris
    02 Dec 1996 105 Index
    08 Mar 1993 4551 iris.data
    30 May 1989 2604 iris.names
  • iris.data为iris数据文件,内容如下:
    5.1,3.5,1.4,0.2,Iris-setosa
    4.9,3.0,1.4,0.2,Iris-setosa
    4.7,3.2,1.3,0.2,Iris-setosa
    ……
    7.0,3.2,4.7,1.4,Iris-versicolor
    6.4,3.2,4.5,1.5,Iris-versicolor
    6.9,3.1,4.9,1.5,Iris-versicolor
    ……
    6.3,3.3,6.0,2.5,Iris-virginica
    5.8,2.7,5.1,1.9,Iris-virginica
    7.1,3.0,5.9,2.1,Iris-virginica
    ……
    如上,属性直接以逗号隔开,中间没有空格(5.1,3.5,1.4,0.2,),最后一列为本行属性对应的值(这里即为鸢尾花的种类)。
  • iris.names就是说过的【Data Set Description】,介绍了iris数据的一些相关信息,如数据标题、数据来源、以前使用情况、最近信息、实例数目、实例的属性等。

4.点击【iris.data】,右键,链接另存为,即可下载该数据集。

5.在Matlab中,我们可以右键点击该文件选择【导入数据】进入可视化界面并加载数据或使用命令【load 文件名】加载数据。建议使用右键方法,因为可以自行选择导入数据的范围。P.S.因为Iris数据集中有字符串,所以我们需要将其替换为数字。

6.至此,我们就可以得到该数据集并使用了!


参考资料:
1. UCI数据集使用

  • 22
    点赞
  • 143
    收藏
    觉得还不错? 一键收藏
  • 15
    评论
评论 15
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值