前言:本文是对机器学习基础算法的知识点整理,部分知识点附了参考材料。
欢迎关注知乎专栏https://zhuanlan.zhihu.com/c_1072857204125765632 涉及深度学习 机器学习 自然语言
LR 的推导
LR特性
- 优点:1、实现简单 容易大规模应用 2、可用l2正则处理特征共线性问题 3 输出是0-1之前的连续值 作为观测样本概率输出
- 缺点:1、对高维分类特征 处理性能较差 2、非线性可分情况需要作特征变换
决策树的特性?
- 优点:1、可解释性强,直观的决策 2、处理非线性可分
- 缺点:1、容易过拟合 2、没有概率输出,只有分类结果
SVM 的推导
- 特性、多分类怎么处理?
- 优点:处理大量特征
- 缺点
SVM、LR、决策树的对比?
http://blog.csdn.net/oliverkehl/article/details/50129999
GBDT 和 决策森林 的区别?
http://blog.csdn.net/keepreder/article/details/47272779
-
gbdt只能是回归树
-
rf可以并行
-
子结果的合并方式不一样
-
gbdt对异常值敏感
标准化和归一化
1.区别:https://www.zhihu.com/question/20467170
- 归一化: 改变了分布 提升收敛速度和结果精度
- 标准化:不改变分布 加快收敛速度 不改变结果精度
2.什么时候需要标准化(https://www.zhihu.com/qestion/30038463/answer/50491149)
- 模型在数据伸缩后与原模型不等价
- 标准化可以加快收敛速度
3.常见标准化方法 (x-min)/(max-min)
4.常用归一化方法log(1+x)
AUC F1
- http://blog.csdn.net/pzy20062141/article/details/48711355
- https://www.zhihu.com/question/30643044/answer/48955833
- Overfitting 判断:auc平滑
支持向量机解决回归问题
Lightgbm xgboost 区别
逻辑回归 对连续值特征的处理
-
离散化的方法:按值、按量划分区间;以熵变小为原则,选择分界点。