机器学习模型和算法学习随记

最新推荐文章于 2021-04-17 21:48:46 发布

yangccnn

最新推荐文章于 2021-04-17 21:48:46 发布

阅读量421

点赞数

分类专栏： python machine-learning 文章标签：机器学习算法

本文链接：https://blog.csdn.net/qq_33819591/article/details/77841407

版权

9 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

论文：XGBoost：
- a scalable tree boosting system
- higgs boson discovery with boosted trees
tgboost (github.com/wepe/thboost) 轮子，参考

RF和GBDT
- 一般，RF整体模型的训练和调参主要关注降低方差，所以可以设定较少的子模型并适当提高子模型的复杂度，并且可以适当降低子模型间的相关度
- GBDT主要关注降低偏差，所以可以设定较多的子模型并适当降低子模型的复杂度，但降低子模型间的相关度起到作用则较小

训练前应对训练集做归一化/标准化，同时对测试集做相同操作
- scaler = sklearn.preprocessing.StandardScaler().fit(train)
- scaler.transform(train)
- scaler.transform(test)
训练集和测试集的划分
- 训练集数据的数据采样模拟真实的测试环境，少偏差
- 样本整体分布一致，K-fold的CV即可
- 样本整体分布不一致，如受时间影响等
  - 使用随机划分的方法常会带来严重的过拟合
  - 如果数据呈现明显的时间序列特征，可采用滑窗法。
常见模型融合（降低模型方差）方法
- 融合基础：多个有差异性的基本模型
- 常用方法：
  - 线性加权融合
  - Rank融合（适合排序评估指标，如AUC）
  - Stacking （相对更健壮？）
  - Blending （stacked ensembling, 比Stacking简单，能防止信息泄露，缺点：只用了数据一部分，可能会对留出集过拟合）
  - 具体参考 Kaggle ensemble guide
  - 模型融合多数时候是有效的，但并非越复杂的模型融合方法带来的结果一定越好！