利用Python进行数据分析过程首先要学会写代码,通过代码将数据分析的思路一步步实现。
通过药店销售案例练习Python数据分析时常用代码:
一、提出问题
从销售数据中分析出以下业务指标:
1、月均消费次数
2、月均消费金额
3、客单价
4、消费趋势
二、理解数据
1、数据导入
由于药店销售数据的格式是excel,因此需要先安装一个读取excel文件的依赖包:xlrd,安装步骤如下:
- 先conda中进入当前notebook文件所在的python环境,命令为:activate py3
- 再在pyhon环境下安装xlrd包,命令为:conda install xlrd
数据导入过程及代码如下:
(1)导入数据包
(2)读取excel数据
- 先读取Excel数据,统一先按照字符串读入,之后转换;
- 再定义一个Excel文件,用xls.parse解析Sheet1的内容。
(3)检查数据正常与否
- 函数:head(),默认前5行;
- 打印出前5行,以确保数据运行正常。
2、理解数据
(1)数据大小
- 函数:shape(),数据大小(行数,列数)。
(2)列字段名称及数据类型
- 函数:dtypes,查看每一列的数据类型。
三、数据清洗
数据分析过程中数据清洗过程如下:
(1)选择子集(切片)
该案例不需要选择子集。
(2)列重命名
- 函数:colNameDict={A:B}(字典),将A用B进行替换;
- 函数:inplace,默认是False,inplace=False说明数据框本身不会变,而会创建一个改动后新的数据框;inplace=True,说明数据框本身会改动。
- 函数rename:重命名函数