数据分析步骤:提出问题、理解数据、数据清洗、构建模型、数据可视化
数据:朝阳医院2018年销售数据
一、提出问题
从销售数据中分析以下业务指标:月均消费次数、月均消费金额、客单价、消费趋势
二、理解数据
(1)使用python读取excel数据
(2)打印前5行:salesDf.head()
(3)有多少行,多少列: salesDf.shape
(6578,7)
(4) 查看列的数据类型:salesDf.dtypes
三、数据清洗
数据清洗包括7个步骤:选择子集
列名重名
删除重复值
缺失值处理
一致化处理
数据排序
异常值处理
(1)选择子集
本案例不需要选择子集
(2)列名重命名
(3)删除重复值
本案例暂时不需要删除重复值
(4)缺失值处理
python缺失值有3种:
a. Python内置的None值
b. 在pandas中,将缺失值表示为NA,表示不可用not available。
c. 对于数值数据,pandas使用浮点值NaN(Not a Number)表示缺失数据。
后