传统机器学习算法

LR:原理、优势、局限性 SVM:算法原理、KKT条件的意义、拉格朗日对偶问题、损失函数 GBDT:算法原理、损失函数、树如何分裂 XGB对比传统GBDT的优点、二阶泰勒展开的是啥、正则项是啥 LightGBM对比传统GBDT的优点 XGB如何输出分类树的结果 XGB如何调参 min_child_weight 干嘛的 随机森林和XBG区别...
摘要由CSDN通过智能技术生成

目录

1、LR

2、SVM

3、决策树和随机森林

4、GBDT

5、XGB


1、LR

(1)原理:

逻辑回归是线性回归的推广,通过逻辑函数将预测映射到0-1的区间,预测值可视为某一类别的概率。
模型仍是线性的,当数据线性可分时表现良好,同时也适用惩罚方法进行正则化。

(2)优势:输出结果有很好的概率解释,算法可通过正则化避免过拟合。容易适用梯度下降来更新参数。

(3)局限性:面对多元或非线性决策边界时性能较差。

2、SVM

(1)算法原理:使用一个名为核函数的技巧,来将非线性问题变换为线性问题,其本质是计算两个观测数据的距离。支持向量机算法所寻找的是能够最大化样本间隔的决策边界,因此又被称为大间距分类器。

在实践中,支持向量机最大用处是用非线性核函数来对非线性决策边界进行建模。

(2)KKT条件的意义:https://zhuanlan.zhihu.com/p/38163970

(3)拉格朗日对偶问题:https://www.cnblogs.com/90zeng/p/Lagrange_duality.html

(4)损失函数:hinge Loss

(5)优点:支持向量机能对非线性决策边界建模,又有许多可选的核函数。在面对过拟合时,支持向量机有着极强的稳健性,尤其是在高维空间中。
        缺点:支持向量机是内存密集型算法,选择正确的核函数就需要相当的j技巧,不太适用较大的数据集。在当前的业界应用中,随机森林的表现往往要优于支持向量机。

(6)核函数:

  • 有效性:核函数矩阵KK是对称半正定矩阵
  • 常见核函数:线性核函数,多项式核函数,高斯核函数,指数核函数
  • 区别:线性简单,可解释性强,只用于线性可分问题。多项式可解决非线性,参数太多。高斯只需要一个参数,计算慢,容易过拟合。
  • 高斯核比线性核有更好的精度,但实际应用中一般用线性核;
    因为如果训练的样本的量很大,训练得到的模型中支持向量的数量太多,在每次做预测时,高斯核需要计算待预测样本与每个支持向量的内积,然后做核函数变换,这个过程非常耗时,而线性核只需要计算X^{T} + b
  • 选择方式
    特征维数高选择线性核
    样本数量可观、特征少选择高斯核(非线性核)
    样本数量非常多选择线性核(避免造成庞大的计算量)

(7)为什么要转化成对偶形式
方便核函数的引入(转化后为支持向量内积计算,核函数可以在低纬中计算高维的内积),改变复杂度(求W变成求a(支持向量数量))

(8)SVM的超参:C和gamma,C正则系数,gamma决定支持向量的数量

3、决策树和随机森林

(1)训练参数

criterion :分裂标准    分类---“gini”;回归---“mse”      entropy:分裂节点时的评价指标是信息增益
max_depth:树的最大深度。如果为None,则深度不限,直到所有的叶子节点都是纯净的,即叶子节点中所有的样本点都属于一个类别。或者每个叶子节点样本数目小于min_sample_split
min_sample_split:分裂一个叶子节点所需要的最小样本数
min_sample_l

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值