最近在学习利用Python进行数据分析,为什么要学习数据分析呢?我们常常遇到这样一种情况,我们可能通过爬虫或者相关统计得到一系列的数据库表格信息,那么怎么从这些数据中得到我们想要的趋势和规律呢?当然是要通过数据分析来实现,它是相关工作岗位的要求,是python数据科学的基础,是机器学习的基础。
1、数据分析流程
数据分析其实就是使用恰当的方法对收集来的大量数据进行分析,帮助人么做出判断,以便采取适当措施。其基本流程如下图所示:
我们一般进行数据分析都需要先确定需要解决的问题,接着去准备数据,可以是本地数据库的,也可以是爬虫获得的,当然我们获得的数据也可能是冗余的,缺失的,需要我们来针对数据进行一个预处理,如数据清洗等等,接着对处理过的数据进行分析,最终将得到的结论可视化。
2、环境搭建:conda和jupyter的使用
1、Anaconda
在学习数据分析的时候,因为Anaconda上集成了很多我们所需要的环境,所以我选择安装Anaconda进行相关操作。
其下载官方地址为:https://www.anaconda.com/products/individual
可利用conda创建一个环境:
conda