大批量数据分析挖掘案例:Kaggle月赛-保险交叉销售预测

1、问题背景

Kaggle本月月赛是报销交叉销售预测问题,所给数据集是基于原381109条数据集使用模型生成的11504798条训练数据。本文着重探讨大批量数据处理使用及模型优化部分,期待共同商讨,引出更优质解法。
 

2、问题描述

本次比赛的数据集(训练和测试)是从在健康保险交叉销售预测数据数据集上训练的深度学习模型生成的。特征分布与原始分布接近,但不完全相同。作为本次比赛的一部分,您可以随意使用原始数据集,既可以探索差异,也可以查看在训练中加入原始数据集是否能提高模型性能。

 其中原始数据集地址:

Health Insurance Cross Sell Prediction 🏠 🏥 (kaggle.com)

月赛生成数据地址:

Binary Classification of Insurance Cross Selling | Kaggle

关于数据集的探索性分析与特征工程,由于其特征维度与分布于原始数据集十分相似,因此不再复述,感兴趣的可以参考另一篇分析性文章:

大批量数据分析挖掘思路-Kaggle项目:保险销售预测-CSDN博客

3、数据准备

读取包

import numpy as np
import pandas as pd
import warnings
warnings.filterwarnings("ignore")
from sklearn.model_selection import train_test_split
import xgboost as xgb

数据集概览

该数据集形状为11504798*11

该数据集非常大,使用pandas直接读取大小达到1053Mb,如此之大的数据量对于模型的训练和参数调整寻优来说将是巨大的时间开销。

df = pd.read_csv("D:\BaiduSyncdisk\python code\数据分析算法学习\Kaggle保险分类比赛\train.csv", index_col = "id", engine="pyarrow")
df.memory_usage().sum()/ 1024 ** 2
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值