超市电商数据分析
数据源概况:
本案例将对某大型超市的零售数据进行数据分析,通过了
解运营状况,做出合理的决策。详细字段是:
Row ID:行编号;
Order ID:订单ID;
Order Date:订单日期;
Ship Date:发货日期;
Ship Mode:发货模式;
Customer ID:客户ID;
Customer Name:客户姓名;
Segment:客户类别;
City:客户所在城市;
State:客户城市所在州;
Country:客户所在国家;
Postal Code:邮编;Market:商店所属区域;
Region:商店所属州;
Product ID:产品ID;
Category:产品类别;
Sub-Category:产品子类别;
Product Name:产品名称;
Sales:销售额;
Quantity:销售量;
Discount:折扣;
Profit:利润;
Shipping Cost:发货成本;
Order Priority:订单优先级;
读取、清洗数据:
- 使用pandas的read_csv读取数据后,查看各列数据的空值情
况,发现Postal Code字段(邮编字段)有空值,而且这一
列不重要,所以首先删除掉Postal Code列; - 使用DataFrame对象的describe()方法,没有发现异常数
据,所以,不必处理;3. 将Order Date订单日期字段的数据修改为datetime类型; - 为了后续分析方便,从订单日期中分别提取年、月、季度数
据,并添加三个列用来存取年、月、季度信息,分别
为:’Order-year’,’Order-month’,’quarter’
。
思考题:还有哪些情况可以进行数据清洗?
数据分析:
利润分析
先根据年和月进行分组,再分别提取各年份(2011-2014
年)的数据,分析各年份对应月的利润情况。
思考题:如何对DataFrame进行分组,并进行聚合运算?如何
将多个Series对象合并成一个DataFrame?
客单价分析
客单价指商场(超市)每一个顾客平均购买商品的金额,客单
价反映顾客的购买水平;
客单价=销售额÷成交顾客数通过计算并展示每年的客单价数据,可以反映每年的顾客购买
水平
可以看出:客单价逐年上升,说明顾客的购买水平是逐年增加
的。
思考题:DataFrame如何去除重复行?
每年销售额与销售额的增长率分析
通过年份分组,计算每年的销售额总和
销售额增长率 = (本年销售额-上年销售额) / 上年销售额 * 100%
= 本年销售额 / 上年销售额 - 1可以看出:该超市在2011-2014年销售额在稳步上升,说明企
业市场占有能力在不断提 高; 2012-2014年的增长率在增长后
趋于平稳,说明企业经营在逐步稳定
思考题:如何将条形图与折线图在一幅图上展示?
分析各个地区分店的销售额
查看不同区域分店的总销售额占比 从该饼图可以看出:APAC、BJ两个地区的销售额比例很高,
总计占51.6%,Canada的销售总额占比最小,只有0.5%,可以
增加对该地区的营销。
分别对各个区域每年销售额分析
由上面的条形图可看出,各个地区2011-2014年的销售总
额均是增长趋势, 其中APAC地区和EU地区的增长速度较快,
市场前景较好,下一年可以适当 加大运营成本。
分别对各个区域的不同类型产品销售额分析由上图可看出,除了Canada地区以外,各大地区销售额都比较
高的是电子产品,可 以适当加大对各地区(除Canada地区)
该种类的投入,以便扩大优势。
思考题:透视表如何创建?它的作用是什么?
销量分析与销售淡旺季分析
销量分析
通过表格展示,2011-2014年各月份的详细销量数据
思考题:如何提取符合相应条件的行(eg:提取2011年的数据
行)
淡旺季分析(通过销售额分析)
通过年月销售额的变化趋势分析淡旺季由上面的折线图可以看出,该超市2011-2014年每一年的销售
额同比上一年都是上升趋势,而且该超市的旺季是下半年;在
上半年的销售额中发现6月份的销售额较高,可以在6月份开始
加大一些运营成本;尤其需要注意,下半年的7月份和10月份
销售额会有明显下降,可以针对这两个月份举行一些营销活
动,以期提高销售额。
思考题:如何通过透视表绘制折线图?
分析新老客户数
新老客户的定义:将只要消费过的客户定义为老客户,否则就
是新客户
根据Customer ID列数据进行重复行的删除, 保证数据集中所
有的客户ID都是唯一的,根据此数据再通过年、月进行分组,
通过透视表分析新老客户数由于上述透视表的人数和远远小于总的记录数,说明超市对保
持老客户较为有效 ,也间接说明了超市的运营状况较为稳定;
还可以发现,2011-2014年每年的新增客户数呈逐年减少的趋
势,新客户获取率比较低,因此,可以进行主动推广营销,从
而增加新客户数;
思考题:新老客户数的分析思路是什么?
用户数据分析 客户类型占比分析
绘制饼图查看不同客户的类型占比,其中,'Segment’字段
代表客户类别
可知:Consumer类型的消费者的客户占比最多,达51.7%,
Home Office占比最小,可加强对该类型的客户进行营销宣
传。
各年不同类型消费者数量分析由上面可分析出,每种类型的客户数量在逐年增长,说明客户
的结构类型趋于良好
不同类型的客户每年的销售额分析
由上面可知,各类型的消费者的销售额在逐步上升,其中以普
通消费者的销售额最多, 可能是因为普通消费者最多的缘故。
思考题:你能想到的对分组数据进行聚合的方法?
用户价值度RFM模型分析
RFM是一个经典的客户分群模型,含义如下:
R——Recency:客户最近一次消费时间
F——Frequency:客户消费的频次
M——Monetary:消费金额
客户价值类型:
重要价值客户:RFM3个值都很高,是平台重点维护的客户
重要保持客户:最近一次消费时间较远,消费金额和消费频
次比较高
重要发展客户:最近有消费,且整体消费金额高,但是购买
不频繁
重要挽留客户:消费金额较高,消费频次偏低,而且已经很
久没有消费行为了
一般价值客户:多次频繁购买,但是购买的商品价格都较低
一般保持客户:频繁浏览,但是很久没有成交了
一般发展客户:有近期购买行为,但购买商品利润低而且不
活跃
一般挽留客户:RFM3个值都低,已经是流失的客户
根据客户对平台的贡献度的排序是:重要价值客户 > 重要保
持客户 > 重要发展客户 > 重要挽留客户 > 一般价值客户 > 一
般保持客户 > 一般发展客户 > 一般挽留客户
以2014年的消费数据为例(其他年份类似)
提取出2014年的订单数据后,分别添加F、M、R三个维度的数
据列,然后再分别对三个维度划定评级,添加三个列,并将每
条记录的三个维度的评分进行0、1标记(大于平均分记为1,
小于平均分的记为0),最后对每个客户进行价值类型标记;对不同价值的客户类型进行占比分析
由上面的分析可知:对于该超市来说,重要价值客户和重要保
持客户的总和已经超过45%;但是一般发展客户的比例也很
高,这种客户很可能是刚注册的客户或者接近流失的客户,针
对刚注册的用户可以采取各种新人优惠福利,提高新客户了解
平台的动力,针对接近流失的客户应该追溯客户过去不满的原
因,对平台进一步完善。
思考题:分组对象的apply()方法如何使用?
如何根据刻度对相应数据进行评级?
针对不同价值客户你能想到哪些营销策略?
客户群体与产品种类的关系分析 通过客户群体类别(Segment字段)与产品类别(Category字
段)分组,对销售额数据进行分析
通过上图展示的结果可以看出,不同客户群体对各种产品的消
费额次序由高到低是: 科技产品(Technology)> 家具产品
(Furniture)>办公用品产品(Office Supplies)。因此,可
以2加大对科技产品的推广;在三种客户类型中,个人消费者
(Consumer)对各种产品的消费都是最高的,因此,可以保
持对个人消费者群体的策略;而居家办公群体(Home
Office)在三种产品的销售额较低,可以针对该用户群体进行
更好的营销推广
思考题:如何通过多个字段分组并进行聚合运算、重置索引?
发货时间与发货成本分析
提取发货日期字段(Ship Date字段)的年、月信息,并整理发货
年、发货月的销售总额,分析发货成本,并预测进货成本
由上面的透视表和折线图可以看出,2011-2014年的发货成本
逐年上升,而且每年的各个月份的发货成本也呈上升趋势;但
是,2015年出现了新的情况!2015年只有7个月的统计数据,
但是这7个月的发货成本逐月降低,而且远远小于前4年的发货
成本,这很可能是由于2015年物流业的飞速发展使得发货成本
大大降低,所以,之后的进货成本也极有可能大大降低!
思考题:透视表的好处有哪些?