UCI Machine Learning Repository
UCI数据库是加州大学欧文分校(University of CaliforniaIrvine)提出的用于机器学习的数据库,这个数据库共有559个数据集,其数目还在不断增加,UCI数据集是一个常用的标准测试数据集。
UCI数据可以使用matlab的dlmread(或textread或者利用matlab的导入数据)读取,不过,需要先将不是数字的类别用数字,比如1/2/3等替换,否则读入不了数值,当字符了。
每个数据文件(.data)包含以“属性-值”对形式描述的很多个体样本的记录。对应的.info文件包含的大量的文档资料。(有些文件_generate_ databases;他们不包含*.data文件。)作为数据集和领域知识的补充,在utilities目录里包含了一些在使用这一数据集时的有用资料。