数据集:uci下载的某家银行电话营销与是否购买定期存储的数据。
模拟目标:知道客户数据,预测购买理财产品概率
我认为将电话营销的数据消除只保留基本属性可以模拟实际银行能够获取的数据。
电话营销数据代表一些对用户决定由影响但是获取难度较大的数据。比如说,买房、买车、小孩上学,这些数据银行不能立刻获得,或者获取成本较高。这里不使用这些数据参与预测。虽然预测准确度会降低,但是更符合实际情况。
然后定期存储是一种产品,可以当做一种理财,如果能对一种进行预测行进实现和验证,那么可以扩展到多种产品的预测
数据情况,见下表
Age | 年龄 |
Job | 工作 |
Marital | 婚姻情况 |
Education | 教育情况 |
Default | 违约情况 - no 无违约 yes 有违约 |
Balance | 账户余额 |
House | 是否买房子 - no 无房产 yes 有房子 |
Loan | 贷款 - no 无贷款 yes 有贷款 |
数据处理
数据清洗常规套路