百货商场用户画像描绘与价值分析

ZShiJ

已于 2024-05-07 18:03:33 修改

阅读量2.6k

点赞数 34

分类专栏：数据挖掘机器学习文章标签：信息可视化数据分析数据挖掘

于 2024-04-17 07:00:00 首次发布

本文链接：https://blog.csdn.net/m0_53054984/article/details/137758694

版权

数据挖掘同时被 2 个专栏收录

46 篇文章

订阅专栏

机器学习

20 篇文章

订阅专栏

🌟欢迎来到 我的博客 —— 探索技术的无限可能！

🌟博客的简介（文章目录）

内容概述

本项目内容主要是基于Python的“百货商场用户画像描述与价值分析”，里面有详细的数据预处理、数据可视化和数据建模等步骤。同时，针对传统RFM模型进行了改进，构造了LRFMP模型来分析客户价值，挖掘客户价值的八个字段，并通过WordCloud形式展现了出来，可以对会员用户进行精准画像。

数据说明

数据集分为两部分，.xlsx结尾的是会员信息表，.csv结尾的是销售流水表。其中，会员信息表共有将近19万条记录，销售流水表共有接近189万条记录。

两个表包含了如会员卡号，消费产生时间，性别，出生时间，商品编码，销售数量，商品售价，消费金额，商品名称，此次消费的会员积分，收银机号，单据号，柜组编码，柜组名称，等级时间等 15 个特征。

L（入会程度）：3个月以下为新用户，4-12个月为中等用户，13个月以上为老用户
R（最近购买的时间）
F（消费频次）：次数20次以上的为高频消费，6-19次为中频消费，5次以下为低频消费
M（消费金额）：10万以上为高等消费，1万-10万为中等消费，1万以下为低等消费
P（消费积分）：10万以上为高等积分用户，1万-10万为中等积分用户，1万以下为低等积分用户

实现目标

本项目主要围绕着“百货商店会员用户画像描绘与价值分析”内容进行，结合目前百货商场的数据情况，可以实现以下目标：

借助百货商场会员用户数据，对会员用户进行分群。
对不同的会员用户类别进行特征分析，比较不同类别会员用户的会员用户价值。
对不同价值的会员用户类别提供个性化服务，制定相应的营销策略。

技术点

数据预处理（Pandas）：包括去重去缺失值、异常值处理、变量重编码和时间序列数据处理方式等；
数据可视化（Matplotlib）：饼图、柱状图、折线图、雷达图和复合图等绘制方式等；
特征创造和数据建模：从海量连续数据中创造出性别、消费偏好、入会程度、最近购买的时间、消费频次、消费金额、消费积分等类别数据，建模部分主要通过标准化和归一化数据来对比KMeans聚类的轮廓系数结果。

代码运行说明

注意：运行此文件后会生成一些中间数据集以及相关图片

主要内容

导入模块

在这里插入图片描述

1.项目背景

1.1 项目背景与挖掘目标

在这里插入图片描述

2.数据探索与预处理

2.1 结合业务对数据进行探索并进行预处理

会员信息表数据探索与预处理

在这里插入图片描述
从上面会员信息表进行分析可以看出，数据中会员卡号存在一些重复值，且会员入会登记时间都有缺失，需要去重去缺失值，因为性别比例缺失较少，所以用众数来填补性别上的缺失值

注意：这里存在部分会员登记时间小于出生时间，因为这列数据所占比例较少，可以直接进行删除和下面有所不同
在这里插入图片描述

检验是否在“登记时间”这一字段上是否存在异常值，若存在异常值，则无法进行基础的运算操作，下面操作能正常执行，说明不存在异常值

在这里插入图片描述
查看处理后数据缺失值情况

注意：由于出生日期这一列的缺失值过多，且存在较多的异常值，不能贸然删除

所以下面这里另建了一个数据集L来保存“出生日期”和“性别”信息，方便下面对会员的性别和年龄信息进行统计
在这里插入图片描述

出生日期这列值出现较多的异常值，以一个正常人寿命为100年算起，我们假定会员年龄范围在1920-2020之间，将超过该范围的值当作异常值进行剔除

在这里插入图片描述
用于与销售流水表进行合并的数据只取[‘会员卡号’, ‘性别’, ‘登记时间’]这三列，将出生日期这列意义不大的进行删除（这列信息最有可能出错），并重置索引

销售流水表数据探索和预处理

在这里插入图片描述

销售数量全部大于0，销售金额也全部大于0，说明两者不会对后者特征创造时产生影响
在这里插入图片描述
查看是否存在缺失值

在这里插入图片描述

会员信息表和销售流水表这两张表唯一相关联的字段便是“会员卡号”

由于销售流水表中“会员卡号”有将近一半为缺失值，这类数据无法进行填充，且后续需要对会员消费记录进行统计分析和建模，故只能舍弃
在这里插入图片描述
可以看到，舍弃掉会员卡号缺失值之后，便只有柜组名称存在缺失，下面舍弃掉一些无意义的字段，仅保留对本项目有研究价值的字段信息

2.2 将会员信息表和销售流水表关联与合并

在这里插入图片描述
按照会员卡号将两张表里的信息进行合并，使用左连接合并，获得一个既包含会员信息，又包含非会员信息的数据
这里再次查看“消费金额”>0，“积分”>0，“销售数量”>0

这里可以看到，merge之后的数据异常值突然变多了，这里就需要对此进行预处理，筛选掉那些异常值，方便后续进行分析

创造一个特征字段，判断是否为会员，1表示为会员，0表示不为会员
在这里插入图片描述

3 统计分析

3.1 分析会员的年龄构成、男女比例等基本信息

处理男女比例这一列，女表示0，男表示1
在这里插入图片描述
可以将年龄划分为老年（1920-1950）、中年（1960-1990）、青年（1990-2010），再重新绘制一个饼图，

使用上述预处理后的数据集L，包含两个字段，分别是“年龄”和“性别”，先画出年龄的条形图
在这里插入图片描述

在这里插入图片描述
绘制各个年龄段的饼图

3.2 分析会员的总订单占比，总消费金额占比等消费情况

由于相同的单据号可能不是同一笔消费，以“消费产生的时间”为分组依据，我们可以知道有多少个不同的消费时间，即消费的订单数
在这里插入图片描述

在这里插入图片描述

3.3 分别以季度和天为单位，分析不同时间段会员的消费时间偏好

消费偏好：我偏向与消费的频次相当于消费的订单数，因为每笔消费订单其中所包含的消费商品和金额都是不太一样的，有的订单所消费的商品很少，但金额却很大，有的消费的商品很多，但金额却特别少。如果单纯以总金额来衡量的话，会员下次消费时间可能会很长，消费频次估计也会相对变小（因为这次所购买的商品已经足够用了）。所以我会偏向于认为一个用户消费频次（订单数）越多，就越能带来更多的价值，从另一方面上来讲，用户也不可能一直都是消费低端产品，消费频次越多用户的粘性也会相对比较大

将会员的消费数据另存为另一个数据集
在这里插入图片描述

自定义一个函数来计算2015-2018之间每个季度或月份的消费订单均数

前提假设：2015-2018年之间，消费者偏好在时间上不会发生太大的变化（均值），消费偏好----->以不同时间的订单数来衡量

自定义函数来绘制不同年份之间的的季度或天数的消费订单差异

函数说明
df: 为DataFrame的数据集
label_y: 为年份的字段标签
label_m: 为标签的一个列表
n_row: 图的行数
n_col: 图的列数

在这里插入图片描述

在这里插入图片描述
自定义函数来绘制不同年份之间的月份消费订单差异

函数说明：
df: 为DataFrame的数据集
label_y: 为年份的字段标签
label_m: 为月份的字段标签

在这里插入图片描述

在这里插入图片描述
再来分析下时间上的差差异——消费订单数

4 会员用户画像和特征字段创造

4.1 构建会员用户基本特征标签

在这里插入图片描述

说明积分这一列没有存在异常值
在这里插入图片描述

查看登记时间和消费产生的时间是否存在异常值，即大于2018-01-03

筛掉两列异常时间的数据

在这里插入图片描述

说明单个会员有多条消费记录数
在这里插入图片描述
可以先筛选每位会员，然后依据各个字段对进行运算，求出对应的LRFMP

自定义一个函数来实现两列数据时间相减

函数说明：
df: 为DataFrame形式，有列数据，第一列为“会员卡号”，第二列为被减的时间
end_time: 结束时间

在这里插入图片描述
开始登记的时间和最后一次消费的时间

调用函数
在这里插入图片描述
会员消费的总次数：
会员消费的总金额：
会员的积分总数：

创造一列特征字段“消费时间偏好”（凌晨、上午、中午、下午、晚上）

说明：
凌晨：0-5点
上午：6-10点
中午：11-13点
下午：14-17点
晚上：18-23点

在这里插入图片描述
会员消费的时间偏好，在多项记录中取众数

会员性别

开始构建对应的特征标签

在这里插入图片描述

在这里插入图片描述
构建会员用户业务特征标签

取DataFrame之后转置取values得到一个列表，再绘制对应的词云，可以自定义一个绘制词云的函数，输入参数为df和会员卡号

L: 入会程度（新用户、中等用户、老用户）
R: 最近购买的时间（月）
F: 消费频数（低频、中频、高频）
M: 消费总金额（高消费、中消费、低消费）
P: 积分（高、中、低）
S: 消费时间偏好（凌晨、上午、中午、下午、晚上）
X：性别
在这里插入图片描述

查看数据的基本特征

在这里插入图片描述
描述性统计

开始对数据进行分组

L（入会程度）：3个月以下为新用户，4-12个月为中等用户，13个月以上为老用户
R（最近购买的时间）
F（消费频次）：次数20次以上的为高频消费，6-19次为中频消费，5次以下为低频消费
M（消费金额）：10万以上为高等消费，1万-10万为中等消费，1万以下为低等消费
P（消费积分）：10万以上为高等积分用户，1万-10万为中等积分用户，1万以下为低等积分用户
在这里插入图片描述
保存数据

在这里插入图片描述

4.2 会员用户词云分析

开始绘制用户词云，封装成一个函数来直接显示词云

函数说明：
df: 为DataFrame的数据集
id_label: 为输入用户的会员卡号，默认为随机取一个会员进行展示

在这里插入图片描述

随机查找一个会员来绘制用户画像
在这里插入图片描述

在这里插入图片描述

5 会员用户细分和营销方案制定

5.1 会员用户的聚类分析及可视化

先对数据进行标准化处理
在这里插入图片描述

对数据进行聚类
在这里插入图片描述

在这里插入图片描述

构造一个绘制聚类可视化效果雷达图的函数

函数说明：
features: 字段名
clf_list：list，为聚类器列表
nrow: 图的行数
ncol: 图的列数
title: 图的名称

在这里插入图片描述

从上面可以看出，标准化后的数据聚类效果相较于归一化的更好，且从轮廓系数和聚类雷达图也可以看出，聚类数最佳为2。因此，下面我们使用聚类数为2的标准化数据进行聚类，得到两类客户的LRFMP均值数据，以此来判断两者之间的差异

5.2 对会员用户进行精细划分并分析不同群体带来的价值差异

以聚类数为2贴上对应的标签
在这里插入图片描述
统计一下两类用户之间的差异，发现两类客户之间数量相差过大

用均值来计算两类样本之间的LRFMP

在这里插入图片描述

在这里插入图片描述
从上面可以看出，标签为1的客户消费频次、消费金额和消费积分均远大于标签为0的客户，且这类客户所占的比例仅有2.3%，可以将其定义为“重要保持会员”。标签为0的客户所占比例为97.7%，其会员登记时间跟标签为1的比较接近，但最近一次消费时间较标签1的还要长，可以将其定义为“一般发展会员”