1、问题背景
Kaggle在6月份的季赛是保险销售预测问题,其原始数据集381109条的保险销售,季赛由利用原数据集的模型生成扩充而来。本篇文章以原始数据集为基础,用以抛砖引玉,探讨该问题的高效解法。
原始数据地址:Health Insurance Cross Sell Prediction 🏠 🏥 (kaggle.com)
2、问题描述
原文:我们的客户是一家为其客户提供健康保险的保险公司,现在他们需要您的帮助来建立一个模型来预测过去一年的投保人(客户)是否也会对公司提供的车辆保险感兴趣。
数据集格式:
数据概览:由于测试集不含标签,本文章为探讨之用,不考虑提交,因此只读取训练集。该数据集共有381109条数据,12个字段,其中字段解释如下:
字段 | 字段解释 |
id | ID |
Gender | 性别 |
Age | 年龄 |
Driving_License | 是否有驾照 |
Region_Code | 地区编码 |
Previously_Insured | 是否投保 |
Vehicle_Age | 车龄 |
Vehicle_Damage | 车辆是否损坏 |
Annual_Premium | 年度保费 |
Policy_Sales Channel |