用于机器学习的开放数据集有哪些呢?Gengo 团队为高质量的数据集创建了一份最终备忘单。这些高质量的数据集或者涵盖范围广泛(比如 Kaggle),或者非常细化(比如自动驾驶汽车的数据)。
首先,在搜索数据集时要记住几点。Dataquest 是这么说的:
- 数据集不应脏乱,这样就无需花太多时间来清洗数据。
- 数据集不应包含太多的行或者列,这样更易于使用。
- 数据越干净越好 —— 清洗大型数据集相当耗时。
- 这些数据可以用来回答一些有趣的问题。
我们一起来看看吧!
数据集查找器
- Kaggle :这是一个数据科学网站,内有各种有趣的数据集。在网站的主列表中有各种各样的利基数据集,有拉面评级、有篮球数据 ,甚至还有西雅图的宠物许可证的数据。
- UCI机器学习库 (UCI Machine Learning Repository):这是网络上最早的数据集来源之一,如果想要寻找有趣的数据集,这个站点值得优先访问。虽然用户提供的数据集的清洁度不太一样,但绝大多数都是干净的。我们可以从 UCI 机器学习库直接下载数据,无需注册。
一般数据集
公共政府数据集
- Data.gov:在这里可以下载到多个美国政府机构的数据,数据范围从政府预算到学校的绩效分数都有。但要注意的是,很多数据还有待进一步研究。
- 食品环境地图集 (Food Environment Atlas):内有当地的食物选择如何影响美国饮食的数据。
- 学校系统财务状况 (School system finances):美国学校系统财务状况的调查报告。
- 慢性病数据 (Chronic disease data):关于美国各地区慢性病指标的数据。
- 美国国家教育统计中心 (The US National Center for Education Statistics):来自美国和世界各地的关于教育机构和教育人口统计的数据。
- 英国数据服务 (The UK Data Service):英国最大的社会、经济和人口数据集。
- 数据美国 (Data USA):全面的、可视化的美国公共数据。
金融与经济
- Quandl:经济和金融数据的良好来源 —— 对于建立预测经济指标或股票价格的模型很有用。
- 世界银行开放数据 (World Bank Open Data):该数据集涵盖了世界各地的人口统计数据和大量的经济和发展指标。
- 国际货币基金组织数据 (IMF Data):国际货币基金组织在这里发布有关国际金融、债务利率、外汇储备、商品价格和投资的数据。
- 金融时报市场数据 (Financial Times Market Data):关于世界各地金融市场的最新信息,包括股票价格指数、商品和外汇。
- Google 趋势 (Google Trend):检查和分析世界各地的互联网搜索活动和热门新闻报道的数据。
- 美国经济协会 (AEA):这是查找美国宏观经济数据的良好来源。