项目简介
利用最近一次的营销活动的信息,分析什么对推销结果的影响最大,如何确定银行定期产品推销中最具价值的客户。
本次我们仅用到excel进行数据分析,后续我们还可以使用机器学习进行数据分析。
1.数据理解
字段名 | 理解 |
age | 年龄 |
job | 职业 |
marital | 婚姻状况 |
education | 学历 |
default | 失信状况 |
balance | 资产余额 |
housing | 房屋贷款 |
loan | 个人贷款 |
contact | 联系方式(分类:cellular, telephone) |
day | 最后一次电话营销的日期 |
month | 最后一次电话营销的月份 |
duration | 通话时长(数值:以秒为单位,0的话最终输出结果必然是0) |
campaign | 联系次数(数值:此活动中联系该客户的次数) |
pdays | 距上次联系完客户后的天数(数值:999代表未联系过该客户) |
previous | 这次活动前与这位客户联系的次数(数值) |
poutcome | 上次营销的结果(分类:yes, no, unknown) |
deposit | 定期存款(分类:yes, no)客户是否已购买定期存款 |
2.数据清洗
此次数据除了部分未知数据(unknown),其它暂不需要清洗。
3.确定思路
首先我们可以将数据分为两种类型:
1、客户的个人信息
2、营销人员与客户的联系信息
那么接下来我们可以按照这两种数据提出几个问题:
1、用户的个人信息是否对结果有着明显的影响(哪些属性影响大)?
2、营销人员的行为是否对结果有着明显的影响(哪些属性影响大)?
4.分析过程
4.1年龄
此时我们探究年龄与结果是否有明显的影响。
首先我们可以查看以下数据集中的年龄统计分布情况:
查看描述统计时,在输出区域中去选择输入区域,否则一直报错!
可以发现共有11162名最小值为18,最大值为95,最小值为18。我们可以按照我们的认知,将客户分为几个不同年龄阶段。
此时得到分组后,我们可以生成数据透视表来查看情况。
从图当中我们可以明显的看到在老年人群体中最终购买了定期存款的比例相对于其他群里最大,为42.10%,而其他群体最终的结果相差特别大。
4.2失信状况
有失信记录的在结果上没有什么差别,无失信记录的最终购买的比例低于没有购买的,但是数据量较小,不能作为参考。
4.3个人资产balance
这里我主要采用箱型图来查看balance数据的分布,以便后续进行分组。
可以看到的是数据主要是集中在0-2000之间,有少部分低于该区间,然后有部分大于该区间。
按下图进行分组:
结果如下:
这里主要可以发现的是负资产的客户最终购买的可能性较低,而资产较高的客户购买的可能性稍微大些。
4.4housing and loan
接下来的房屋贷款和个人贷款,这个我打算放在一起进行分析。
具体如下:
可以看到无房贷和无个人贷款的客户最终购买的可能性最大,为18.22%。其余的只要有任何一个贷款购买的可能性就比较低。
4.5 上次营销结果poutcome
同理,生成透视图查看一下:
(包括这次在内,当生成透视图时发现有部分数据(如unknown、other)是我们不想要的,记得筛选掉)
从图中我们可以明显发现,上次营销成功的客户这次购买的可能性也极大
5. 总结
结论:从上述结果我们可以发现,老年人且上次营销成功的群体最有可能购买产品,而有贷款且低资产的用户购买的可能性会很小。
PS: 这次没有其他过多的因素考量,如产品实际的业务情况、数据具体来源等,而我主要也是利用自己以往的经验来选取数据进行分析,没有做过多的分析比较。