Numpy即Numerical Python的缩写,从名字可知它是专门用于处理数字的Python包。主要是使用多维数组进行基础的数学运算。
数据分析过程中有许多非数字的信息需要处理,所以在基于Numpy的基础上又有了Pandas工具包。主要有两种数据结构:Series和Dataframe。Series类似于Numpy中的数组,而Dataframe是二维的表格型数据。
数据分析主要有5个步骤:提出问题,理解数据,数据清洗,构建模型,数据可视化。
在提出问题之后,pandas可以帮助我们理解数据和数据清洗。
以某医院销售数据为例,需要根据提供的表格知道月均消费次数,月均消费金额,客单价。在提出问题之后就需要我们知道手中掌握的数据。然后转化为数据框的形式方便理解。
由于表格数据经常会有缺失值以及无效值,对于数据要预先处理,最经常的做法是删除。
删除后再将时间信息处理为Dataframe容易处理的形式。
之后再对重复值以及异常值进行处理。
这次需要的业务指标可通过直接计算获得。
在分析的过程中,个人认为最重要的是要对数据框行列的准确引用以及对数据类型转换。
其中重要的方法:
datafram.loc[ ]可以引用行名或列名,引用的所有行和列会出现。和一般python和numpy数组中的切片是不同的。
datafram.shape可得到数据框行数和列名。
dataframe.dropna()删除缺失值
dataframe.sort_values()排序
学习心得:在使用pandas进行数据分析请需要先认真查看手上的数据。检查数据是否会有各种异常。因为一般表格的数据比较大,不可能通过眼力查看。所以需要对一些常用的检查函数了然于心。在分析的过程中可能会卡住或者出现错误,很多都是自己对一些数据类型认识不清造成的。因为之前学过R,pandas中的数据框和R中的数据框很相似,操作细节不同,但是主要的方法还是大同小异。