数据分析主要分为以下步骤:
1.首先是提出问题,明确需要具体解决的问题
2.采集可以用于分析的数据,并对数据集进行理解
3.对数据进行清洗,目的是使数据结构更有利于我们的后续分析
4.进行模型的构建,解决问题,并实现可视化
下面对药品销售数据进行初步分析
数据来源为已有的某药店药品销售情况文件
一. 提出问题
需要解决的问题是,从销售数据中分析出以下业务指标:
月均消费次数,月均消费金额,客单价,消费趋势
首先对数据进行初步了解,读取数据:read_excel
查看数据基本信息:
从而得知数据包含的信息有
1. 购药时间
2.社保卡号:代表购买药物的人
3.商品编码:药物的编码
4.商品名称:药物的名称
5.销售数量:购买的数量
6.应收金额:商品标价
7.实收金额:实际卖出的金额,打折促销等
二.数据清洗
对数据进行基本清洗,从而进行后续分析
1.选择子集(本案例不需要选择子集)
方法:salesDf.loc[0