整个流程可以大概分成四部分。
1. 数据获取:①本地获取,用户手工输入,或者以文本文件的形式读取,又或读取某个数据库;②网络获取,比如爬取信息,对信息解析,保存到文件,或者网站直接提供了api与数据下载。
2.数据整理:把数据获取的部分,按我们需要的方式给整理完成,包括数据格式,数据的取舍,数据计算等等,又可以称为“数据清洗”,其目的是为了之后的数据分析,减轻分析的难度。
3.数据分析:在整理的基础上,按照我们想要的方式对数据进行分析,统计
4.数据展示:完成分析后,把结果展示出来,又可以细分为传统的控制台展示;以图形化的形式展示(数据可视化);也可以不展示,把分析结果保存到文件里。
尽管用其他程序语言也可以完成相同的工作,但python的简易性,众多的第三方库已经对类似的工作,进行了大量的“奠基”,站在前人的肩膀上,能够大大减少开发难度与时间。
同时,因为python的第三方太多,这就造成了数据分析的整个流程中,同一个功能,很可能许多库都能完成,而多个流程,也可能由一个库就能解决,存在重叠性。
Anaconda 是一个第三方提供的开源免费工具集平台,它支持800多个python第三方库,包含多个主流工具,特别适合数据计算领域开发,跨平台能在Windows/linux/os x 等系统上使用。
工具集平台:Anaconda IDE,包括conda,spyder,IP