1. 非技术手段获取(鄙人以为, 条件允许的话, 可以试试(●'◡'●) )
线下访谈, 头脑风暴, 调查问卷
2. 技术手段获取(真就是 "爬虫学的好, 牢饭吃到饱"😂 )
通过爬虫去获取, 爬取线上的数据资源, 比如图片, 文本, 微博, 股票数据
2. 数据集下载(最正常的选项哈)
(1)机构门户网站数据集: 中国国家统计局, 美国政府公开数据, 联合国数据,
(2)机器学习数据库和竞赛平台上:
1. 机器学习经典数据集, 初学者, 谁没见过它: UCI Machine Learning Repository
2. kaggle-全球最大的数据竞赛平台(注册需要使用点魔法): https://www.kaggle.com/
3. 天池--阿里数据科学竞赛平台
4. DataCastle --专业的数据科学竞赛平台
5. 亚马逊数据集
6. 微软数据集
当然, 一些工具包里也有自带的数据集, 例如, scikit-learn中自带鸢尾花数据集, 糖尿病数据集等