此文将教大家为UCI机器学习门户引入简单直观的API,用户可以轻松查找数据集描述,搜索他们感兴趣的特定数据集,甚至可以下载按大小或机器学习任务分类的数据集。
介绍
UCI机器学习数据集库是机器学习教学法领域的一个传奇。对于初学者和高级学习者来说,这是一个“go-to-shop”。它是机器学习社区用于机器学习算法的实证分析的数据库,领域理论和数据生成器的集合。
该档案由David Aha和加州大学欧文分校的研究生于1987年创建为ftp档案。从那时起,它已被全世界的学生、教育工作者和研究人员广泛用作机器学习数据集的主要来源。作为档案影响的一个标志,它已被引用超过1000次,使其成为所有计算机科学中被引用率最高的100篇“论文”之一。
也就是说,导航门户网站可能有点令人沮丧和耗时,因为您感兴趣的数据集没有简单直观的API或下载链接。您必须跳转多个页面才能转到您所在的原始数据集页面寻找。此外,如果您对特定类型的ML任务(例如回归或分类)感兴趣并且想要下载与该任务相对应的所有数据集,则没有简单的命令来完成此任务。
下载
这是一个获得MIT许可的开源Python 3.6代码库,它提供了允许用户以交互方式使用UCI ML数据集的功能和方法。
GitHub地址:https://github.com/tirthajyoti/UCI-ML-API
必需的包
运行此代码只需要三个广泛使用的Python包:Pandas