自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 大批量数据分析挖掘案例:Kaggle月赛-保险交叉销售预测

由于pandas读取数据默认以最大数据类型存储,整型以int64读取,浮点型以float64读取,而该数据集几乎所有数据根本不需要如此大的数据类型,如Age列最大值为85,Region_Code列最大值为52,简单的int8、float16类型便能存储,将其转换为较小的数据类型可以减少内存压力,增加数据计算速度,将其进行转换,在该数据集可以减少70%内存,以此思路在处理大批量数据时可以作为有力参考。经过多次测试,由于学习率较小,虽然减缓了收敛速度,但是取得了较好的效果,在本地测试最终最高AUC值达到了。

2024-07-18 21:33:40 760

原创 大批量数据分析挖掘思路-Kaggle项目:保险销售预测

事实上,真正决定预测效果上限的是训练数据的质量,模型选择与参数调优的过程是逼近数据上限的过程,由于该数据集数据质量较好,并不需要过于复杂的特征工程,只需解决数据集平衡问题。在测试集中,AUC值达到了0.937,与训练集指标差距较小,说明模型的泛化能力较强,取得了良好的效果,为防止数据集分割的偶然现象,使用k-fold进一步对模型进行评价。将准备好的,x_train_scaled,y_train_smote数据按照8:2的比例进行训练集测试集分割,作为训练与评价数据。

2024-07-15 22:28:18 1310

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除