kaggle notebooks
1. 【notebook】xgboost-lightgbm-catboost 预测取平均
【notebook】xgboost-lightgbm-catboost 预测取平均
- xgboost + lightbgm + catboost 利用
np.column_stack
组合预测结果取平均; - 简单的特征筛选:去除只有一个值的特征;
- ordinal/label encoder:特征数/行数 太大,独热编码会增加比率引起过拟合,不采用;
- 最终决胜点在于Adding Risk Factors :https://www.kaggle.com/c/playground-series-s3e3/discussion/380920
- MultiColumnLabelEncoder :
https://www.kaggle.com/code/radek1/eda-training-a-1st-model-submission
【Python】特征编码 - 多标签特征同时编码(封装类方式)
2. 【notebook】xgboost, cudf, Regression Class Cutoff(连续值转类别整数划分最佳阈值)
【notebook】xgboost, cudf, Regression Class Cutoff(连续值转类别整数划分最佳阈值)
- xgboost 但模型,optuna提前调优;
- Regression Class Cutoff:将分类转变为回归来做,最终预测的回归值按照设置的分割阈值转成类别整数,需要找到最佳的分割阈值,涉及到
scipy.optimize.minimize
来搜索最佳阈值;
【Python】特征编码 - Regression Class Cutoff(连续值转整数寻找最佳划分阈值)
【Scipy】scipy.optimize.minimize - Kappa相关性系数的概念和代码;
【sklearn】sklearn.metrics - sklearn.metrics.cohen_kappa_score - 交叉验证的一个用法 >>> 求解最终预测值
详见notebook中cross_valid
函数
(1) 找到最优模型(参数)后,将参数固定,生成的模型在训练集上进行交叉验证;
(2) 每轮循环在不同折的训练集上训练得到不同模型, 每轮生成的模型在整个测试集上进行预测,生成概论模型的预测值;
(3) 最终所有轮模型的预测结果的平均值。 - cudf是一个 GPU DataFrame库,pandas只能在cpu上运行,cudf将dataframe转到gpu上; 详见notebook中
cross_valid
函数;