随机森林 - 寿险客户信息分析

注:  出于职业要求, 本文中所有数字均被人为修改过, 并非真实数字, 很抱歉也不能贴出源代码

 

目标:

    个险客户特征分析

 

建模过程:

输入: 从现有上千万的客户信息抽取其个人信息, 清洗后留下100多个特征, 包括婚姻, 年龄, 收入, 身高体重, 职业风险度, 居住区等.  用现有产品的类别作为分类信息, 包括储蓄险, 终身险, 定期险, 投资险等.

 

算法:

    首先使用决策树作粗略的预测检验输入数据的有效性,使用随机森林输出重要的特征

    决策树的优点在于直观, 容易实现, 并且能同时处理离散型和连续型变量, 过程中添加变量的改动也不大. 从数据中抽取了一年的客户信息作为训练集, 建立决策树来预测客户选择的保险产品类别.

结果分析:

第一次运行命中率只有40%, 分析其混淆矩阵:

 

 

可以看出, 决策树在最后一个分类的效果很差, 可以说没有效果,在第三第四个分类上区分度也不高.  

最后一个分类是投资险, 说明现有客户特征并不能满足投资险种分类的区别, 需要添加特征值

第三,四个分类其实都是定期险, 一种是缴费年限定期, 另一种是被保年龄定期, 本质上区别不大,可以合并起来

暂时过滤掉投资险客户信息, 合并定期险客户信息后, 重运行的混淆矩阵

 

 

可以看到分类已经有所改进了, 命中率可以达到60%

二三四分类的区分度看上去已经不错了, 唯有第一类储蓄险种区分度不高, 把这部分客户信息过滤掉之后, 就可以达到不错的命中率了.

 

随机森林相比决策树的优点除了准确率高之外, 更重要的是它能够给出哪些feature比较重要! 而这正好就是市场部分所需要的东西. 

 

最终结果显示, 在过去的10年中, 客户的婚姻状态/年龄/身高体重对客户的保险产品选择贡献度最高.

 

模型的结果最终会在Tableau上显示:

如特征值贡献度走势

 

 重要特征分类下的保单数统计

 

转载于:https://www.cnblogs.com/okokok/p/6104824.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值