1、问题背景
Kaggle本月月赛是报销交叉销售预测问题,所给数据集是基于原381109条数据集使用模型生成的11504798条训练数据。本文着重探讨大批量数据处理使用及模型优化部分,期待共同商讨,引出更优质解法。
2、问题描述
本次比赛的数据集(训练和测试)是从在健康保险交叉销售预测数据数据集上训练的深度学习模型生成的。特征分布与原始分布接近,但不完全相同。作为本次比赛的一部分,您可以随意使用原始数据集,既可以探索差异,也可以查看在训练中加入原始数据集是否能提高模型性能。
其中原始数据集地址:
Health Insurance Cross Sell Prediction 🏠 🏥 (kaggle.com)
月赛生成数据地址:
Binary Classification of Insurance Cross Selling | Kaggle
关于数据集的探索性分析与特征工程,由于其特征维度与分布于原始数据集十分相似,因此不再复述,感兴趣的可以参考另一篇分析性文章:
大批量数据分析挖掘思路-Kaggle项目:保险销售预测-CSDN博客
3、数据准备
读取包
import numpy as np
import pandas as pd
import warnings
warnings.filterwarnings("ignore")
from sklearn.model_selection import train_test_split
import xgboost as xgb
数据集概览
该数据集形状为11504798*11
该数据集非常大,使用pandas直接读取大小达到1053Mb,如此之大的数据量对于模型的训练和参数调整寻优来说将是巨大的时间开销。
df = pd.read_csv("D:\BaiduSyncdisk\python code\数据分析算法学习\Kaggle保险分类比赛\train.csv", index_col = "id", engine="pyarrow")
df.memory_usage().sum()/ 1024 ** 2