一、科研数据
1.UCI
http://archive.ics.uci.edu/ml/datasets.html
UCI数据库是加州大学欧文分校(University of CaliforniaIrvine)提出的用于机器学习的数据库,这个数据库目前共有335个数据集,其数目还在不断增加,UCI数据集是一个常用的标准测试数据集。
2.RAWDAD
https://crawdad.org/
二、算法竞赛
1.kaggle
2.kdd竞赛
3.cikm
4.天池
https://tianchi.aliyun.com/?spm=5176.100068.0.0.6164771e6jC14J
5.DC竞赛
http://www.dcjingsai.com/
三、政府开发数据
1.Data.gov
https://www.data.gov/
2.NYC OpenData
https://opendata.cityofnewyork.us/
3.上海市政府数据服务网
http://www.datashanghai.gov.cn/home!toHomePage.action
四、其他个人组织公开数据
1.Citi Bike
https://www.citibikenyc.com/system-data
2.FiveThirtyEight
http://fivethirtyeight.com/
五、数据整合网站
1.聚数力
http://www.dataju.cn/Dataju/web/singleCategoryList/glance
2.城市数据派
https://www.udparty.com/index.php
六、优缺点
1.优点:
1.1 数据质量高
1.2 属性描述清楚
1.3 可参考使用案例
2.缺点:
2.1 属性项局限
2.2 数据时效性一般
2.3 隐私保护的数据混淆,处理数据造成影响