前面已经分享过python的基础语法,以及数据分析领域最常用的两个包:Numpy和Pandas(戳下面的链接),下面将用一个实际案例:《朝阳医院2018年销售数据.xlsx》和大家分享一下数据分析的基本流程。赵小娟儿Lyric:【科学计算工具一】初识Numpyzhuanlan.zhihu.com赵小娟儿Lyric:【科学计算工具二】初识Pandaszhuanlan.zhihu.com
在此之前,我们先来学习一下,数据分析的基本过程~~
一、明确问题
这里有一份朝阳医院2018年高血压药物的销售数据,我们需要得到以下三个指标:
月均消费次数,总消费次数/月份数,作为销售部门的重要指标值之一。(注意:同一个人同一天的消费只能视为一次消费)
月均消费金额,总消费金额/月份数,主要作为衡量部门收益的一个指标。
客单价,也就是平均交易金额,总消费金额/总消费次数。销售部门看看是否需要提高客单价来提高收益。
总结:这次的数据分析目的是查看销售部门这段时间的销售业绩如何,部门收益如何,是否需要通过提高客单价增加收益。
二、 理解数据
1、采集数据:
2、导入数据:数据存放在excel中
#导包
import numpy as np
import pandas as pd
salesDf = pd.read_excel(r'C:\Users\Juan\Desktop\朝阳医院2018年销售数据.xlsx', dtype = 'object')
#以object的类型读入数据,是为了防止某些数据读不进来,后面再根据需要更改数据类型。
'''
查看数据基本信息
'''
#打印出前5行,以确保数据运行正常
salesDf.head()
3、查看数据的基本信息,从整体上理解数据通过info() 函数info()函数观察结果: (1)数据一共有6578个观测 (2)7个变量/特征(购药时间,社保卡号,商品编码,商品名称,销售数量,应收金额,实收金额) (3)每个特征值对应的观测值均有缺失值
三、数据清洗
1、选择子集有时候原始数据的特征值很多,只有一部分是我们需要的(比如网络上爬取下来的数据中的ip地址这个特征值对后续数据处理没有意义,舍弃),这时就需要选择数据的部分子集作为我们数据处理的对象。
本案例的所有的特征值都要使