如今的我们,淹没在大数据的海洋中,却又忍受着因没有数据而导致的饥渴。很多人都想做大数据研究,但数据在哪里呢?数据不再是“资源”,而是变成了一种重要“资产”。
—— 摘自《数据科学理论与实践》
除了利用网络爬虫收集数据、数据生成和存储部门的供给之外,我们还可以通过以下方式获得大数据(在每一类途径之下给出了代表性数据集):
1政府开放数据
美国政府开放的数据集 :https://www.data.gov/
美国交通事故数据集:https://www-fars.nhtsa.dot.gov/Main/index.aspx
美国空气质量数据集:http://aqsdr1.epa.gov/aqsweb/aqstmp/airdata/download_files.html
印度政府公开的数据:data.gov.in(https://data.gov.in/)
英国政府公开的数据集:https://data.gov.uk/
2企业或公益组织
Amazon Web Services (AWS) datasets:(https://aws.amazon.com/datasets/
Google datasets:https://cloud.google.com/bigquery/public-data/
Youtube labeled Video Dataset:https://research.google.com/youtube8m/
NASA:https://data.nasa.gov/
世界银行:http://www.shihang.org/
纽约出租车:http://chriswhong.github.io/nyctaxi/
3大数据竞赛平台
Kaggle:https://www.kaggle.com/datasets
Past KDD Cups:http://www.kdd.org/kdd-cup
Driven Data:https://www.drivendata.org/
4机器学习领域经典数据集
UCI:https://archive.ics.uci.edu/ml/datasets.html
Delve Datasets: http://www.cs.toronto.edu/~delve/data/datasets.html
5统计学领域经典数据集
统计学领域论文、学术期刊、著名图书中的数据集
各类统计年鉴
统计数据库
6其他
R包中的数据集,如nycflights13
本文授权转自:数据科学DataScience;
END
如果你对人工智能与机器学习感兴趣,请加交流群:群号:139482724 ;
版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。
关联阅读:
原创系列文章:
数据运营 关联文章阅读:
数据分析、数据产品 关联文章阅读: