2022年“泰迪杯”数据分析职业技能赛B题
银行客户忠诚度分析
分析报告
目录
1 背景
目前银行产品存在同质化现象,客户选择产品和服务的途径越来越多,对产品的忠诚度越来越低。为了提高客户对银行的忠诚度和银行营销量,商业银行迫切需要转变经营理念,从“产品销售导向”业务模式向“以客户为中心”转变,为客户带来极致体验和价值成长,形成路径依赖,进而实现价值共赢。客户忠诚度主要体现为客户的行为和态度。客户行为主要表现为产品重复购买的频率,而客户态度主要表现为情感的倾向。为了有效挖掘客户忠诚度,需要从短期客户产品购买数据和长期客户资源信息中分析客户需求指标。其中,短期客户忠诚度分析是通过产品的购买数据,分析不同指标客户对银行产品的购买依赖度从而提供更好的销售服务;长期客户忠诚度分析则是从客户资源信息数据中挖掘客户流失因素、预测可能流失的客户,尽可能留住高价值客户。
2 目标
(1)对客户数据进行预处理,并对字符型数据进行特征编码。
(2)基于短期客户产品购买数据,分析不同指标客户对银行产品的购买依赖度,并进行可视化呈现。
(3)基于长期客户资源信息数据,分析客户流失因素,并进行可视化呈现。
(4)依据长期客户资源信息数据的分析结果构建相关指标,对银行客户长期忠诚度进行预测。
3 数据预处理
3、任务1.1
基于任务1.1的要求,即使对“short-customer-data.csv”(简称短期数据)和“long-customer-train.csv”(简称长期数据)两个文件的数据探索和清洗。
使用python导入pandas、numpy库,对两个表格的缺失值、重复值、异常值进行数据的探索和处理。
(1):
A.缺失值处理
首先检测短期数据文件的缺失值,检测结果图如下:
3.、任务1.2
基于任务2.1的要求,要对“short-customer-data.csv”文件中的字符型数据进行特征编码具体步骤如下:
- 导包以及查看表信息,取出信用违约情况default的全部数据。
- 任务2.2
先将不同年龄段购买情况的列拿出来。然后从中提取需要的数据,构造数据框,从这里我们看出来,有两个列都是字符串,需要将数据进行转换成能绘图的数据,
然后再将年龄列拿出来,再算出两种产品购买结果下不同年龄客户量占比 ,从而绘出效果图。
- 任务2.3
通过分析,我们首先将这里蓝领和学生的数据分布取出,将购买情况的成功和失败的总和分别算出来,再构造列表框,得到绘制饼图的数据。
- 任务2.4
从分析题目得到,首先需要得到购买产品的结果情况,访谈的通话时长,这里通过pandas库的loc函数进行筛选得到需要的数据,分别求得了,产品购买成功的访谈时间和产品购买失败的访谈时间。
客户流失因素可视化分析
任务3的客户流失因素可视化分析思路同任务2类似。
4、任务3.1
基于长期数据做数据分析,先导入相关包:pandas、matplotlib.pyplot。读取文件result1_2.xlsx。
5 特征构建
任务4.1:
先将任务三的excel表导入进来,通过题干的图表7可以得知,新老客户活跃程度的特征构建规则,活跃程度是0新客户为0,稳定客户为1,老客户为2;活跃程度是1,新用户是3,稳定客户是4,老客户是5,这样我们就能定义一个函数来解决这道问题,从而得出先要的列。
任务4.2:
从表8知道,不同存款额客户活跃程度特征构建规则,并构造IsActiveAssetStage列的数据,可以表,我们可以知道以下规则,客户活跃程度是0的情况下,各个资产阶级的活跃程度,低资产为0,中下资产为1,中上资产为2,高资产为3;客户活跃程度为1的情况下,各个资产阶级的活跃程度,低资产为6,中下资产为7,中上资产为8,高资产为9。通过以上规则我们可以编写一个函数来求出结果。
任务4.3:
通过表9,我们可以知道不同金融资产信用卡持有状态特征构建规则,从而得知以下的内容。
当信用卡持有状态为0,各个资产阶级的信用卡状态:低资产为0,中下资产为2,中上资产为5,高资产为5;
当信用卡状态为1,各个资产阶级的信用卡状态:低资产为6,中下资产为7,中上资产为9,高资产为9;通过以上的规则我们可以构造一个函数去求得响应的结果
6 预测建模
A题结果图片
2023第六届泰迪杯数据技能分析大赛指导加+群181947584拿去年源码,泰迪杯技能分析大赛国一团队、数据挖掘国一团队、电工杯国一团队!!!
思路分析: