目录
1、LR
(1)原理:
逻辑回归是线性回归的推广,通过逻辑函数将预测映射到0-1的区间,预测值可视为某一类别的概率。
模型仍是线性的,当数据线性可分时表现良好,同时也适用惩罚方法进行正则化。
(2)优势:输出结果有很好的概率解释,算法可通过正则化避免过拟合。容易适用梯度下降来更新参数。
(3)局限性:面对多元或非线性决策边界时性能较差。
2、SVM
(1)算法原理:使用一个名为核函数的技巧,来将非线性问题变换为线性问题,其本质是计算两个观测数据的距离。支持向量机算法所寻找的是能够最大化样本间隔的决策边界,因此又被称为大间距分类器。
在实践中,支持向量机最大用处是用非线性核函数来对非线性决策边界进行建模。
(2)KKT条件的意义:https://zhuanlan.zhihu.com/p/38163970
(3)拉格朗日对偶问题:https://www.cnblogs.com/90zeng/p/Lagrange_duality.html
(4)损失函数:hinge Loss
(5)优点:支持向量机能对非线性决策边界建模,又有许多可选的核函数。在面对过拟合时,支持向量机有着极强的稳健性,尤其是在高维空间中。
缺点:支持向量机是内存密集型算法,选择正确的核函数就需要相当的j技巧,不太适用较大的数据集。在当前的业界应用中,随机森林的表现往往要优于支持向量机。
(6)核函数:
- 有效性:核函数矩阵KK是对称半正定矩阵
- 常见核函数:线性核函数,多项式核函数,高斯核函数,指数核函数
- 区别:线性简单,可解释性强,只用于线性可分问题。多项式可解决非线性,参数太多。高斯只需要一个参数,计算慢,容易过拟合。
- 高斯核比线性核有更好的精度,但实际应用中一般用线性核;
因为如果训练的样本的量很大,训练得到的模型中支持向量的数量太多,在每次做预测时,高斯核需要计算待预测样本与每个支持向量的内积,然后做核函数变换,这个过程非常耗时,而线性核只需要计算 + b - 选择方式
特征维数高选择线性核
样本数量可观、特征少选择高斯核(非线性核)
样本数量非常多选择线性核(避免造成庞大的计算量)
(7)为什么要转化成对偶形式
方便核函数的引入(转化后为支持向量内积计算,核函数可以在低纬中计算高维的内积),改变复杂度(求W变成求a(支持向量数量))
(8)SVM的超参:C和gamma,C正则系数,gamma决定支持向量的数量
3、决策树和随机森林
(1)训练参数
criterion :分裂标准 分类---“gini”;回归---“mse” entropy:分裂节点时的评价指标是信息增益
max_depth:树的最大深度。如果为None,则深度不限,直到所有的叶子节点都是纯净的,即叶子节点中所有的样本点都属于一个类别。或者每个叶子节点样本数目小于min_sample_split
min_sample_split:分裂一个叶子节点所需要的最小样本数
min_sample_l