百货商场用户画像描绘and价值分析(上)

内容概述

本项目内容主要是基于Python的“百货商场用户画像描述与价值分析”,里面有详细的数据预处理、数据可视化和数据建模等步骤。同时,针对传统RFM模型进行了改进,构造了LRFMP模型来分析客户价值,挖掘客户价值的八个字段,并通过WordCloud形式展现了出来,可以对会员用户进行精准画像。

数据说明

数据集分为两部分,.xlsx结尾的是会员信息表,.csv结尾的是销售流水表。其中,会员信息表共有将近19万条记录,销售流水表共有接近189万条记录。

两个表包含了如会员卡号,消费产生时间,性别,出生时间,商品编码,销售数量,商品售价,消费金额,商品名称,此次消费的会员积分,收银机号,单据号,柜组编码,柜组名称,等级时间等 15 个特征。

  • L(入会程度):3个月以下为新用户,4-12个月为中等用户,13个月以上为老用户
  • R(最近购买的时间)
  • F(消费频次):次数20次以上的为高频消费,6-19次为中频消费,5次以下为低频消费
  • M(消费金额):10万以上为高等消费,1万-10万为中等消费,1万以下为低等消费
  • P(消费积分):10万以上为高等积分用户,1万-10万为中等积分用户,1万以下为低等积分用户

技术点

  • 数据预处理:包括去重去缺失值、异常值处理、变量重编码和时间序列数据处理方式等;
  • 数据可视化:饼图、柱状图、折线图、雷达图和复合图等绘制方式等;
  • 特征创造和数据建模:从海量连续数据中创造出性别、消费偏好、入会程度、最近购买的时间、消费频次、消费金额、消费积分等类别数据,建模部分主要通过标准化和归一化数据来对比KMeans聚类的轮廓系数结果。

主要内容

导入模块

在这里插入图片描述

1.项目背景

1.1 项目背景与挖掘目标

在这里插入图片描述

在这里插入图片描述

2.数据探索与预处理

2.1 结合业务对数据进行探索并进行预处理

会员信息表数据探索与预处理

在这里插入图片描述

从上面会员信息表进行分析可以看出,数据中会员卡号存在一些重复值,且会员入会登记时间都有缺失,需要去重去缺失值,因为性别比例缺失较少,所以用众数来填补性别上的缺失值

在这里插入图片描述

在这里插入图片描述

检验是否在“登记时间”这一字段上是否存在异常值,若存在异常值,则无法进行基础的运算操作,下面操作能正常执行,说明不存在异常值

在这里插入图片描述

查看处理后数据缺失值情况
在这里插入图片描述

下面这里另建了一个数据集L来保存“出生日期”和“性别”信息,方便下面对会员的性别和年龄信息进行统计
在这里插入图片描述

出生日期这列值出现较多的异常值,以一个正常人寿命为100年算起,我们假定会员年龄范围在1920-2020之间,将超过该范围的值当作异常值进行剔除

在这里插入图片描述

用于与销售流水表进行合并的数据只取[‘会员卡号’, ‘性别’, ‘登记时间’]这三列,将出生日期这列意义不大的进行删除(这列信息最有可能出错),并重置索引
在这里插入图片描述

在这里插入图片描述

销售流水表数据探索和预处理

在这里插入图片描述

在这里插入图片描述

销售数量全部大于0,销售金额也全部大于0,说明两者不会对后者特征创造时产生影响
在这里插入图片描述

查看是否存在缺失值

在这里插入图片描述

会员信息表和销售流水表这两张表唯一相关联的字段便是“会员卡号”

由于销售流水表中“会员卡号”有将近一半为缺失值,这类数据无法进行填充,且后续需要对会员消费记录进行统计分析和建模,故只能舍弃
在这里插入图片描述

可以看到,舍弃掉会员卡号缺失值之后,便只有柜组名称存在缺失,下面舍弃掉一些无意义的字段,仅保留对本项目有研究价值的字段信息
在这里插入图片描述

在这里插入图片描述

2.2 将会员信息表和销售流水表关联与合并

在这里插入图片描述

按照会员卡号将两张表里的信息进行合并,使用左连接合并,获得一个既包含会员信息,又包含非会员信息的数据
在这里插入图片描述

在这里插入图片描述

这里可以看到,merge之后的数据异常值突然变多了,这里就需要对此进行预处理,筛选掉那些异常值,方便后续进行分析

创造一个特征字段,判断是否为会员,1表示为会员,0表示不为会员
在这里插入图片描述

3 统计分析

3.1 分析会员的年龄构成、男女比例等基本信息

处理男女比例这一列,女表示0,男表示1
在这里插入图片描述

可以将年龄划分为老年(1920-1950)、中年(1960-1990)、青年(1990-2010),再重新绘制一个饼图,
在这里插入图片描述

使用上述预处理后的数据集L,包含两个字段,分别是“年龄”和“性别”,先画出年龄的条形图
在这里插入图片描述

在这里插入图片描述

绘制各个年龄段的饼图
在这里插入图片描述

在这里插入图片描述

3.2 分析会员的总订单占比,总消费金额占比等消费情况

由于相同的单据号可能不是同一笔消费,以“消费产生的时间”为分组依据,我们可以知道有多少个不同的消费时间,即消费的订单数
在这里插入图片描述

在这里插入图片描述

3.3 分别以季度和天为单位,分析不同时间段会员的消费时间偏好

消费偏好:我偏向与消费的频次相当于消费的订单数,因为每笔消费订单其中所包含的消费商品和金额都是不太一样的,有的订单所消费的商品很少,但金额却很大,有的消费的商品很多,但金额却特别少。如果单纯以总金额来衡量的话,会员下次消费时间可能会很长,消费频次估计也会相对变小。

将会员的消费数据另存为另一个数据集
在这里插入图片描述

在这里插入图片描述

自定义一个函数来计算2015-2018之间每个季度或月份的消费订单均数
在这里插入图片描述

前提假设:2015-2018年之间,消费者偏好在时间上不会发生太大的变化(均值),消费偏好----->以不同时间的订单数来衡量
在这里插入图片描述

自定义函数来绘制不同年份之间的的季度或天数的消费订单差异

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

自定义函数来绘制不同年份之间的月份消费订单差异

在这里插入图片描述

在这里插入图片描述

再来分析下时间上的差差异——消费订单数
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述


更多详细内容可看
在这里插入图片描述

  • 19
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值