随机森林 - 寿险客户信息分析

最新推荐文章于 2024-04-01 14:43:06 发布

ddc8393

最新推荐文章于 2024-04-01 14:43:06 发布

阅读量256

点赞数

文章标签：数据结构与算法人工智能

原文链接：http://www.cnblogs.com/okokok/p/6104824.html

版权

注: 出于职业要求, 本文中所有数字均被人为修改过, 并非真实数字, 很抱歉也不能贴出源代码

目标:

个险客户特征分析

建模过程:

输入: 从现有上千万的客户信息抽取其个人信息, 清洗后留下100多个特征, 包括婚姻, 年龄, 收入, 身高体重, 职业风险度, 居住区等. 用现有产品的类别作为分类信息, 包括储蓄险, 终身险, 定期险, 投资险等.

算法:

首先使用决策树作粗略的预测检验输入数据的有效性,使用随机森林输出重要的特征

决策树的优点在于直观, 容易实现, 并且能同时处理离散型和连续型变量, 过程中添加变量的改动也不大. 从数据中抽取了一年的客户信息作为训练集, 建立决策树来预测客户选择的保险产品类别.

结果分析:

第一次运行命中率只有40%, 分析其混淆矩阵:

可以看出, 决策树在最后一个分类的效果很差, 可以说没有效果,在第三第四个分类上区分度也不高.

最后一个分类是投资险, 说明现有客户特征并不能满足投资险种分类的区别, 需要添加特征值

第三,四个分类其实都是定期险, 一种是缴费年限定期, 另一种是被保年龄定期, 本质上区别不大,可以合并起来

暂时过滤掉投资险客户信息, 合并定期险客户信息后, 重运行的混淆矩阵

可以看到分类已经有所改进了, 命中率可以达到60%

二三四分类的区分度看上去已经不错了, 唯有第一类储蓄险种区分度不高, 把这部分客户信息过滤掉之后, 就可以达到不错的命中率了.

随机森林相比决策树的优点除了准确率高之外, 更重要的是它能够给出哪些feature比较重要! 而这正好就是市场部分所需要的东西.

最终结果显示, 在过去的10年中, 客户的婚姻状态/年龄/身高体重对客户的保险产品选择贡献度最高.

模型的结果最终会在Tableau上显示:

如特征值贡献度走势

重要特征分类下的保单数统计

转载于:https://www.cnblogs.com/okokok/p/6104824.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
随机森林 - 寿险客户信息分析

注: 出于职业要求, 本文中所有数字均被人为修改过, 并非真实数字, 很抱歉也不能贴出源代码目标: 个险客户特征分析建模过程:输入: 从现有上千万的客户信息抽取其个人信息, 清洗后留下100多个特征, 包括婚姻, 年龄, 收入, 身高体重, 职业风险度, 居住区等. 用现有产品的类别作为分类信息, 包括储蓄险, 终身险, 定期险, 投资险等....
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。