江枫渔火A-CSDN博客

原创大批量数据分析挖掘案例：Kaggle月赛-保险交叉销售预测

由于pandas读取数据默认以最大数据类型存储，整型以int64读取，浮点型以float64读取，而该数据集几乎所有数据根本不需要如此大的数据类型，如Age列最大值为85，Region_Code列最大值为52，简单的int8、float16类型便能存储，将其转换为较小的数据类型可以减少内存压力，增加数据计算速度，将其进行转换，在该数据集可以减少70%内存，以此思路在处理大批量数据时可以作为有力参考。经过多次测试，由于学习率较小，虽然减缓了收敛速度，但是取得了较好的效果，在本地测试最终最高AUC值达到了。

2024-07-18 21:33:40 760

原创大批量数据分析挖掘思路-Kaggle项目：保险销售预测

事实上，真正决定预测效果上限的是训练数据的质量，模型选择与参数调优的过程是逼近数据上限的过程，由于该数据集数据质量较好，并不需要过于复杂的特征工程，只需解决数据集平衡问题。在测试集中，AUC值达到了0.937，与训练集指标差距较小，说明模型的泛化能力较强，取得了良好的效果，为防止数据集分割的偶然现象，使用k-fold进一步对模型进行评价。将准备好的，x_train_scaled，y_train_smote数据按照8:2的比例进行训练集测试集分割，作为训练与评价数据。

2024-07-15 22:28:18 1310

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 大批量数据分析挖掘案例：Kaggle月赛-保险交叉销售预测

原创 大批量数据分析挖掘思路-Kaggle项目：保险销售预测

空空如也

空空如也

原创大批量数据分析挖掘案例：Kaggle月赛-保险交叉销售预测

原创大批量数据分析挖掘思路-Kaggle项目：保险销售预测