UCI数据集使用

最新推荐文章于 2025-03-12 16:26:04 发布

依然在原点

最新推荐文章于 2025-03-12 16:26:04 发布

阅读量4.1w

点赞数 9

分类专栏：大数据数据挖掘

本文链接：https://blog.csdn.net/u010004460/article/details/51353934

版权

数据挖掘同时被 2 个专栏收录

5 篇文章

订阅专栏

大数据

2 篇文章

订阅专栏

UCI数据集是一个常用的标准测试数据集。
下载地址：
http://www.ics.uci.edu/~mlearn/MLRepository.html

UCI数据可以使用Matlab的dlmread或textread读取，不过，需要先将不是数字的类别用数字，比如1/2/3等替换，否则读入不了数值，当字符了。
每个数据文件（.data）包含以“属性-值”对形式描述的很多个体样本的记录。对应的.info文件包含的大量的文档资料。（有些文件generate databases；他们不包含*.data文件。）作为数据集和领域知识的补充，在utilities目录里包含了一些在使用这一数据集时的有用资料。
下面以UCI中IRIS为例介绍一下数据集：
[1]
ucidata\iris中有三个文件：
Index
iris.data
iris.names
index为文件夹目录，列出了本文件夹里的所有文件，如iris中index的内容如下：
Index of iris
18 Mar 1996 105 Index
08 Mar 1993 4551 iris.data
30 May 1989 2604 iris.names
iris.data为iris数据文件，内容如下：
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
……
7.0,3.2,4.7,1.4,Iris-versicolor
6.9,3.1,4.9,1.5,Iris-versicolor
……
6.3,3.3,6.0,2.5,Iris-virginica
6.4,3.2,4.5,1.5,Iris-versicolor
5.8,2.7,5.1,1.9,Iris-virginica
7.1,3.0,5.9,2.1,Iris-virginica
……
如上，属性直接以逗号隔开，中间没有空格（5.1,3.5,1.4,0.2,），最后一列为本行属性对应的值，即决策属性Iris-setosa
iris.names介绍了irir数据的一些相关信息，如数据标题、数据来源、以前使用情况、最近信息、实例数目、实例的属性等，如下所示部分：
……
7. Attribute Information:
1. sepal length in cm
2. sepal width in cm
3. petal length in cm
4. petal width in cm
5. class:
– Iris Setosa
– Iris Versicolour
– Iris Virginica
……
读取UCI数据集iris.data中数据：

[attrib1, attrib2, attrib3, attrib4, class] = textread(‘data\iris.data’, ‘%f%f%f%f%s’, ‘delim。iter’, ‘,’);
attrib = [attrib1’; attrib2’; attrib3’; attrib4’]’;
a = zeros(150, 1);
a(strcmp(class, ‘Iris-setosa’)) = 1;
a(strcmp(class, ‘Iris-versicolor’)) = 2;
a(strcmp(class, ‘Iris-virginica’)) = 3;
至此，属性值均保存到attrib中，类别值保存到数组a中。