| education | 学历(分类:primary, secondary, tertiary and unknown) |
| default | 失信状况(分类:yes, no) |
| balance | 资产余额(数值) |
| housing | 房屋贷款(分类:yes, no, unknown) |
| loan | 个人贷款(分类:yes, no, unknown) |
| contact | 联系方式(分类:cellular, telephone) |
| day | 最后一次电话营销的日期(数值:月份中的哪一天) |
| month | 最后一次电话营销的月份(分类:jan, feb, mar, apr,…,nov, dev) |
| duration | 通话时长(数值:以秒为单位,0的话最终输出结果必然是0) |
| campaign | 联系次数(数值:此活动中联系该客户的次数) |
| pdays | 距上次联系完客户后的天数(数值:999代表未联系过该客户) |
| previous | 这次活动前与这位客户联系的次数(数值) |
| poutcome | 上次营销的结果(分类:yes, no, unknown) |
| deposit | 定期存款(分类:yes, no)客户是否已购买定期存款 |
2 数据清洗
此次数据除了部分未知数据(unknown),其它暂不需要清洗。
3 确定思路
首先这个balance,我不太确定具体指什么,目前推测应该是客户存放在银行的资金(负数应该代表欠了银行钱吧哈哈),总不可能是代表这个人的个人全部资产吧(银行得不到这方面的信息),所以暂时留着。
然后这个day和month,如果说有年份的话还能将其分为周一周二等,但是没有,数据集出处也没有明确标注是哪一年,所以如果用来分析的话可能也只能按月来分析,但按以往的经验和数据量的大小来看,应该用处不大。
至于duration的话,因为当duration为0时结果必然是失败的,说明这个数据的记录应该是银行人员在营销完记录下的,而现实中你无法在营销前就得到该数据,所以这个数据没有用。
那么接下来我们如何下手呢?
首先我们可以将数据分为两种类型:
1、客户的个人信息
2、营销人员与客户的联系