机器学习UCI数据库

原创 2012年07月03日 16:04:21

http://archive.ics.uci.edu/ml/

 

数据库是加州大学欧文分校(UniversityofCaliforniaIrvine)提出的用于机器学习的数据库,这个数据库目前共有187个数据集,其数目还在不断增加,UCI数据集是一个常用的标准测试数据集。

 

UCI上的“MultipleFeatures”数据库,这是一个手写数字识别问题,其中每个数字的数字化图像由6组共649个特征表示。

 

 

UCI数据可以使用matlabdlmread(或textread或者利用matlab的导入数据)读取,不过,需要先将不是数字的类别用数字,比如1/2/3等替换,否则读入不了数值,当字符了。

 

每个数据文件(*.data)包含以“属性-值”对形式描述的很多个体样本的记录。对应的*.info文件包含的大量的文档资料。(有些文件_generate_ databases;他们不包含*.data文件。)作为数据集和领域知识的补充,在utilities目录里包含了一些在使用这一数据集时的有用资料。

 

下面以UCIIRIS为例介绍一下数据集:

 

ucidata\iris中有三个文件:

Index

iris.data

iris.names

 

index为文件夹目录,列出了本文件夹里的所有文件,如irisindex的内容如下:

Index of iris

18 Mar 1996      105 Index

08 Mar 1993     4551 iris.data

30 May 1989     2604 iris.names

 

iris.datairis数据文件,内容如下:

5.1,3.5,1.4,0.2,Iris-setosa

4.9,3.0,1.4,0.2,Iris-setosa

4.7,3.2,1.3,0.2,Iris-setosa

……

7.0,3.2,4.7,1.4,Iris-versicolor

6.9,3.1,4.9,1.5,Iris-versicolor

……

6.3,3.3,6.0,2.5,Iris-virginica

6.4,3.2,4.5,1.5,Iris-versicolor

 

5.8,2.7,5.1,1.9,Iris-virginica

7.1,3.0,5.9,2.1,Iris-virginica

……

如上,属性直接以逗号隔开,中间没有空格(5.1,3.5,1.4,0.2,),最后一列为本行属性对应的值,即决策属性Iris-setosa

 

iris.names介绍了irir数据的一些相关信息,如数据标题、数据来源、以前使用情况、最近信息、实例数目、实例的属性等,如下所示部分:

……

7. Attribute Information:

   1. sepal length in cm

   2. sepal width in cm

   3. petal length in cm

   4. petal width in cm

   5. class:

      -- Iris Setosa

      -- Iris Versicolour

      -- Iris Virginica

……

9. Class Distribution: 33.3% for each of 3 classes.

 

本数据的使用实例请参考其他论文,或本站后面的内容。

 

下面以wine数据为例导入matlab并利用前面提到的libsvm做测试

 

>> uiimport('wine.data')

导入数据,workspace处出现wine数组178*14

将标签和数据属性提取,并保存到matlab平台下的数据

>> wine_label = wine(:,1);

>> wine_data = wine(:,2:end);

>> save winedat.mat

 

(下次使用的时候可以直接>> load winedat

 

svm训练模型得到wine模型

>> modelw = svmtrain(wine_label,wine_data);

.*

optimization finished, #iter = 239

nu = 0.892184

obj = -61.125695, rho = 0.131965

nSV = 130, nBSV = 53

.*

optimization finished, #iter = 193

nu = 0.882853

obj = -50.421538, rho = -0.166754

nSV = 107, nBSV = 42

.*

optimization finished, #iter = 214

nu = 0.800233

obj = -53.411663, rho = -0.286931

nSV = 119, nBSV = 44

Total nSV = 178

 

分类结果

>> [plabelw, accuracyw] = svmpredict(wine_label,wine_data,modelw);

Accuracy = 100% (178/178) (classification)

 

相关文章推荐

开放数据集

商业敏感数据虽然难以获取,但好在仍有相当多有用数据可公开访问。它们中的不少常用来作为特定机器学习问题的基准测试数据。常见的有以下几个: UCL机器学习知识库 包括近300个不同大小和类...

UCI数据集使用

UCI数据库目前共有187个数据集,其数目还在不断增加,UCI数据集是一个常用的标准测试数据集。 UCI数据可以使用Matlab的dlmread或textread读取,不过,需要先将不是数字的类别用...

UCI数据库使用说明

UCI机器学习数据库的网址:http://archive.ics.uci.edu/ml/ 数据库不断更新,是所有学习人工智能、机器学习等都需要用到的数据库,是看文章、写论文、测试算法的必备数据集。数...
  • qiudw
  • qiudw
  • 2013年02月26日 22:06
  • 6445

Delphi7高级应用开发随书源码

  • 2003年04月30日 00:00
  • 676KB
  • 下载

UCI数据集和源代码

UCI数据集是一个常用的标准测试数据集,下载地址在 http://www.ics.uci.edu/~mlearn/MLRepository.html 我的主页上也有整理好的一些UCI数据集: h...

机器学习UCI数据库说明

http://archive.ics.uci.edu/ml/   数据库是加州大学欧文分校(UniversityofCaliforniaIrvine)提出的用于机器学习的数据库,这个数据库...

Delphi7高级应用开发随书源码

  • 2003年04月30日 00:00
  • 676KB
  • 下载

UCI数据集和源代码&数据挖掘的数据集资源

《UCI数据集和源代码》UCI数据集是一个常用的标准测试数据集,下载地址在http://www.ics.uci.edu/~mlearn/MLRepository.html我的主页上也有整理好的一些UC...

Delphi7高级应用开发随书源码

  • 2003年04月30日 00:00
  • 676KB
  • 下载

初入SVM学习报告

学习报告 1 本周工作 初步的了解svm,熟悉算法的流程,建立模型,并且写程序实现。 了解每一行代码的含义(以葡萄酒实验和上证指数为例) 了解交叉选取参数的方法,以及意义 解决软件运行和兼容...
  • he_min
  • he_min
  • 2015年08月09日 10:58
  • 1234
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:机器学习UCI数据库
举报原因:
原因补充:

(最多只允许输入30个字)