机器学习理论知识整理2017版

前言:本文是对机器学习基础算法的知识点整理,部分知识点附了参考材料。

欢迎关注知乎专栏https://zhuanlan.zhihu.com/c_1072857204125765632 涉及深度学习 机器学习 自然语言

 

LR 的推导

LR特性

  • 优点:1、实现简单 容易大规模应用 2、可用l2正则处理特征共线性问题 3 输出是0-1之前的连续值 作为观测样本概率输出
  • 缺点:1、对高维分类特征 处理性能较差 2、非线性可分情况需要作特征变换

 

决策树的特性?

  • 优点:1、可解释性强,直观的决策 2、处理非线性可分
  • 缺点:1、容易过拟合 2、没有概率输出,只有分类结果

 

SVM 的推导

  • 特性、多分类怎么处理?
  • 优点:处理大量特征
  • 缺点

 

SVM、LR、决策树的对比?

http://blog.csdn.net/oliverkehl/article/details/50129999

 

GBDT 和 决策森林 的区别?

http://blog.csdn.net/keepreder/article/details/47272779

  1. gbdt只能是回归树

  2. rf可以并行

  3. 子结果的合并方式不一样

  4. gbdt对异常值敏感

 

标准化和归一化

1.区别:https://www.zhihu.com/question/20467170

  • 归一化: 改变了分布 提升收敛速度和结果精度
  • 标准化:不改变分布 加快收敛速度 不改变结果精度

2.什么时候需要标准化(https://www.zhihu.com/qestion/30038463/answer/50491149

  • 模型在数据伸缩后与原模型不等价
  • 标准化可以加快收敛速度

3.常见标准化方法 (x-min)/(max-min)

4.常用归一化方法log(1+x)

 

AUC F1

 

支持向量机解决回归问题

 

Lightgbm xgboost 区别

 

逻辑回归 对连续值特征的处理

  1. 特征离散的优点:https://www.zhihu.com/question/31989952

  2. 离散化的方法:按值、按量划分区间;以熵变小为原则,选择分界点。

 

随机森林、Adaboost、GBDT、XGBoost的区别是什么?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值