【notebook】notebook list

1. 【notebook】xgboost-lightgbm-catboost 预测取平均

【notebook】xgboost-lightgbm-catboost 预测取平均

  1. xgboost + lightbgm + catboost 利用 np.column_stack 组合预测结果取平均;
  2. 简单的特征筛选:去除只有一个值的特征;
  3. ordinal/label encoder:特征数/行数 太大,独热编码会增加比率引起过拟合,不采用;
  4. 最终决胜点在于Adding Risk Factors :https://www.kaggle.com/c/playground-series-s3e3/discussion/380920
  5. MultiColumnLabelEncoder :
    https://www.kaggle.com/code/radek1/eda-training-a-1st-model-submission
    【Python】特征编码 - 多标签特征同时编码(封装类方式)

2. 【notebook】xgboost, cudf, Regression Class Cutoff(连续值转类别整数划分最佳阈值)

【notebook】xgboost, cudf, Regression Class Cutoff(连续值转类别整数划分最佳阈值)

  1. xgboost 但模型,optuna提前调优;
  2. Regression Class Cutoff:将分类转变为回归来做,最终预测的回归值按照设置的分割阈值转成类别整数,需要找到最佳的分割阈值,涉及到scipy.optimize.minimize来搜索最佳阈值;
    【Python】特征编码 - Regression Class Cutoff(连续值转整数寻找最佳划分阈值)
    【Scipy】scipy.optimize.minimize
  3. Kappa相关性系数的概念和代码;
    【sklearn】sklearn.metrics - sklearn.metrics.cohen_kappa_score
  4. 交叉验证的一个用法 >>> 求解最终预测值
    详见notebook中cross_valid函数
    (1) 找到最优模型(参数)后,将参数固定,生成的模型在训练集上进行交叉验证;
    (2) 每轮循环在不同折的训练集上训练得到不同模型, 每轮生成的模型在整个测试集上进行预测,生成概论模型的预测值;
    (3) 最终所有轮模型的预测结果的平均值。
  5. cudf是一个 GPU DataFrame库,pandas只能在cpu上运行,cudf将dataframe转到gpu上; 详见notebook中cross_valid函数;
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值