一、背景及目的
从多维度对某平台2016年电商数据进行分析,总结销售规律,为来年销售计划做准备,指导之后的产品销售。
二、理解数据
三、提出分析思路
四、数据清洗
此部分请见我之前写的文章:电商数据分析之数据清洗(python)mh赵:电商数据分析之数据清洗(python)zhuanlan.zhihu.com
五、数据分析
首先,看下2016年的整体销售情况:
2016年,订单总量是104,329,总销售额为9,066,399元,共有102,447位用户参与购买,有流水的商品数为1,000件。
1、产品数据
1)销量前十、后十的产品
看出,销量前十的产品ID为895,762、103、587、385、60、38、403、345、823,他们的销量范围在280~360之间,这些产品是比较受消费者欢迎的。
销量后十的产品id
销量后十的产品id是948、856、621、272、563、347、597、468、986、1000,销量范围在10~30之间,这些产品的购买用户较少。
2)销售额前十、后十的产品
以产品Id分组求和,选取payMoney列,并按照进行payMoney降序处理。
销售额前十的产品:
销售额排名前十的产品销售额都在25万元以上,除了产品id为385产品销售额外,其余产品销售额差距不大。
销售额后十的产品:
销售额排名后十的产品销售额均在25,000元以下,可以看到,销售额前十的产品销售额是排名后十的产品销售额的十倍。
接下来,我们看下销量和销售额最后100个的交集,如果这些产品的销量和销售额都不行,需要看看是不是要优化或者下架。
3)不同城市的销量、销售额排名,方法同产品的销量和销售额分析,下面给出代码并求出销量和销售额都低的城市id
得出,cityid为280012、280010、70002、180023、380001的城市销量和销售额都很低。我们需要对每个城市进行详细的分析,为什么这些城市销量和销售额低。可以从推广,运营,用户等多个维度查找问题,此处不再赘述。
4、所有商品的价格区间怎样?有没有一个价格区间的商品卖的非常好?
绘图时加入中文字体:导入matplotlib 中的font_manager 库:
From matplotlib import font_manager
# 设置中文字体
my_font=font_manager.FontProperties(fname='C:\Windows\Fonts\msyh.ttc',size=18)
# 先按照100的区间分桶
bins = np.arange(0,25000,100)
pd.cut(order_data.price,bins)
#直方图
plt.figure(figsize=(16,16))
plt.hist(order_data.price,bins)
plt.xlabel('价格区间',fontproperties=my_font)
plt.ylabel('数量',fontproperties=my_font)
plt.title('商品的价格分布',fontproperties=my_font)
plt.show()
结果如下:
可以看到价格区间10,000以上的商品很少,我们修改价格区间范围最大值为10,000再次展示:
a、很多价格区间是没有商品的,如果可以根据市场情况,考虑要不要补上对应商品。
下面我们查找这些价格区间:
b、价格区间0~2000的商品居多,我们按照1000分桶再看下
结果如下:
看出,价格在1000以下的产品占71%,占所有商品的大多数。我们可以多研发这些本区间热销产品。
2、用户数据
1)我们可以根据不同时间的下单量,按照时间做推广
a、按照小时来看
中午12、13、14点下单比较多,晚上20点左右下单较多,这两个高峰期,我们需要着重推广商品。且下单高峰时段,我们也要注意网站的稳定性和可用性,不要因为一些不必要的因素导致销量低。
b、按照星期来看
周末下单最多,其次是周四周五
c、按照月来看每月交易情况
先将创建时间设置为表的索引:
df = order_data.set_index('createTime',inplace=False)
注意设置变量接收,尽量保持原表完整,便于下面分析。
制作每月销售额曲线:
看到,2016年从4月份销售额逐渐上升,7月份销售额最高,8月份稍有下降,9月份急剧下降。
再看2016年销量:
对于销量,5月份快速上升,7月达到最高销量,8月有所下降,9月急剧下降,销量趋势和销售额曲线基本吻合。
2)下单多久后支付
首先定义一个函数,获取支付时间和创建时间差(单位秒),并添加到列
查看是否添加成功
在payDelta列分桶:
画饼图的时候,若有重合部分,我们可以调整分桶区间
饼图显示,支付时间在10分钟以内的用户占大多数(97%)
3、渠道数据
1)不同渠道的销量
看到,渠道2和渠道3的销量明显多于其他渠道的销量,再看不同渠道的销售额
2)不同渠道销售额
渠道2和渠道3的销售额也明显多于其他渠道销售额。可以看到,渠道2销量多与渠道3销量,但渠道2销售额小于渠道3的销售额,我们需要结合成本等来逐渐优化。对于销量和销售额都很低的渠道5、6我们要结合实际看看之后是否还要继续通过这两个渠道来进行推广。
六、结论及建议
1、2016年,订单总量是104,329,总销售额为9,066,399元,共有102,447位用户参与购买,有流水的商品数为1,000件。
2、不管是销量还是销售额来看,热销产品还是表较多的,我们可以结合市场情况主推销量和销售额都很多的385号产品;
对于销量和销售额都很低的产品,我们需要看看是要优化这些产品还是下架(具体产品参考problem_productId)。
3、对于各城市的销售分析看出,ityid为280012、280010、70002、180023、380001的城市销量和销售额都比较低。
具体情况我们还要对每个城市进行详细分析,为什么这些城市销量和销售额低。可以从推广,运营,用户等多个维度查找问题。
4、价格区间分析中,我们看到价格在1000元以下的产品占比71%,我们可以多研发这些区间的热销产品;对于没有商品的价格区间
我们可以根据市场情况,考虑要不要补上对应商品。
5、用户每小时的下单量,中午12、13、14点下单比较多,晚上20点左右下单较多,这两个高峰期,我们需要着重推广商品。且下单高峰时段,我们也要注意网站的稳定性和可用性,不要因为一些不必要的因素导致销量低。
从周看,周末的下单量最多,周四周五次之。
2016年每月销售分析趋势看,每年5月左右销售逐渐变好,8月稍有下降,9月份急剧下降,到11月跌至最低。
6、从用户下单到用户支付时间差看,用户支付时间在10分钟以内的占大多数(97%),说明用户的购买意愿、目的性强。
7、渠道2销量多与渠道3销量,但渠道2销售额小于渠道3的销售额,我们需要结合成本等来逐渐优化。对于销量和销售额都很低的渠道5、6我们要结合实际看看之后是否还要继续通过这两个渠道来进行推广。