一、机器学习
1 树模型
1.1 树模型基础
1.1.1 决策树的类型
1.2 Bagging
1.2.1 随机森林
Bagging与随机森林算法原理小结
系统梳理 Gradient Boosting Machine
1.3 Boosting
1.3.1 LightGBM
1.3.2 Xgboost
重要性类型
通过feature_importance_属性得到的特征重要性结果与模型参数importance_type(重要性类型)直接相关,具体而言供有三种:weight、gain和cover。
weight
weight 表示一个特征在所有树中被使用的次数。这个参数反映了该特征的重要性,因为如果一个特征被用于更多的树中,那么它对最终预测结果的贡献就更大。
gain
gain 表示一个特征在所有树中对预测结果的平均增益。这个参数反映了该特征在每个节点上的分裂能力,因为如果一个特征在每个节点上的分裂能力越强,它对最终预测结果的贡献就越大。
cover
cover 表示一个特征在所有树中对样本的平均覆盖度。这个参数反映了该特征对模型的覆盖能力,因为如果一个特征对更多的样本有影响,它对最终预测结果的贡献就更大。
1.4 Stacking
1.5 不同集成树的区别
GDBT模型、XGBoost和LightGBM之间的区别与联系
1.6 EM算法
2 评分卡
风控建模指标PSI,IV和WOE理解
评分卡模型中的IV和WOE详解
机器学习特征工程-特征选择之IV
3 方差和偏差
https://c.d2l.ai/stanford-cs329p/_static/pdfs/cs329p_slides_7_1.pdf
二、深度学习
1 优化器
Tensorflow-各种优化器总结与比较
Transformer模型详解(图解最完整版)
2 算法
2.1 推荐算法
3 GraphEmbedding
三、大数据
1 Spark
https://www.statist.cn/2020/05/16/Spark%E7%9A%84%E6%89%A7%E8%A1%8C%E8%BF%87%E7%A8%8B/#more
https://www.statist.cn/2020/03/14/Spark%E6%A6%82%E5%BF%B5%E6%A6%82%E8%A7%88%EF%BC%9AClusters,%20Jobs,%20Stages,%20Tasks/#more