首先先谢谢点进来的小伙伴,这是我在自媒体平台的第一篇文章,你的点击对我将是莫大的鼓励。
其实在写这篇文章之前,我想了很久,想了很多框架,想了很多逻辑,想了很多算法,最终我选择分享数据的获取。
数据分析、大数据分析这两个短语近几年被炒的火热,有太多人转行或者开始学习数据分析,行业竞争也变的越来越激烈,想要成为人上人,那就务必吃得苦中苦。
我也是从16年开始接触数据分析这个行业,从excel开始,到现在的python,在此期间学习了很多数据相关的技能,走过数不清的弯路。最终每天不断的看视频、查百度、社区交流,得以小成,可谓是苦尽甘还没来,毕竟有那么多的后浪在前赴后继的涌向数据分析这个职业,如果跑得慢,就死在了沙滩上。
在学习的过程中,总是会遇到各式各样的问题。看懂了记不住,记住了不会用,会用了不贴合业务。这在数据分析这个行业里应该是大多数小伙伴的现状了。纠结、痛苦、怀疑自己。
后期终结了一下经验。终于在经历了山路十八弯后来到了一个小下坡,发现自己在学习数据分析的时候大多数都是与实际业务相脱节。那么怎么办呢,我的解决办法是通过使用贴近真实业务的数据进行分析,从脏数据到干净数据,从明细数据到汇总数据,从统计分析到建立模型,一步一个脚印,zhu大zhu强。
下面给小伙伴分享一下我在获取公开数据集和数据应用的一些网站。
数据获取的途径多种多样,可简单划分为以下几种:
1. 业务系统数据库提取
2. 网络爬虫
3. 自主生成
4. 程序语言随机生成
5. 公开数据集下载
从业务系统数据库提取需要在公司数据库系统使用,对于学习者而言这部分数据取到