1、逻辑回归
知识点介绍:
逻辑回归(LR)就是一种减小预测范围,将预测值限定为[0,1]间的一种回归模型。回归方程如下:
实际上LR仅仅是在线性回归上增加了一个非线性函数(sigmoid)。
过程:
涉及的知识点主要有 极大似然、对数损失函数、梯度下降法更新参数。
模型评估:
LR用于二分类,常用的AUC评价模型性能。
参数说明:
sklearn.linear_model.LogisticRegression(penalty='l2', dual=False,
tol=0.0001, C=1.0, fit_intercept=True, intercept_scaling=1,
class_weight=None, random_state=None, solver='liblinear',
max_iter=100, multi_class='ovr', verbose=0, warm_start=False, n_jobs=1)
需要重点理解的参数:
penalty
:正则化选择参数,参数可选值为l1和l2,分别对应l1正则化和l2正则化,默认是l2正则化。
调整该参数的目的主要是为了防止过拟合,一般penalty选择l2正则化就够啦,但是如果选择l2正则化发现依然过拟合,即预测效果还是很差的时候,就可以考虑l1正则化。如果模型的特征非常多,我们希望做一些特征选择(即把一些不重要的特征过滤掉),这个时候也可以考虑用l1正则化。
C
:正则化系数,正则化强度的导数,必须是一个正数,值越小,正则化强度越大,即防止过拟合的程度更大。
dual
:用来指明是否将原问题改成他的对偶问题,对偶问题可以理解成相反问题,比如原问题是求解最大值的线性规划,那么他的对偶问题就是转化为求解最小值的线性规划,适用于样本较小的数据集,因样本小时,计算复杂度较低。
2、支持向量机
知识点:
目标函数及其优化。
通过求解对偶问题求解原始问题的最优解。
合页损失函数。
SMO算法。
两者异同点:
相同点:
- 都是线性分类器。本质上都是求一个最佳分类超平面。
- 都是监督学习算法。
- 都是判别模型。通过决策函数,判别输入特征之间的差别来进行分类。
常见的判别模型有:KNN、SVM、LR。
常见的生成模型有:朴素贝叶斯,隐马尔可夫模型。
不同点:
1) 本质上是损失函数不同
LR的损失函数是交叉熵:
SVM的目标函数:
逻辑回归基于概率理论,假设样本为正样本的概率可以用sigmoid函数(S型函数)来表示,然后通过极大似然估计的方法估计出参数的值。
支持向量机基于几何间隔最大化原理,认为存在最大几何间隔的分类面为最优分类面。
2)SVM 基于距离分类,LR 基于概率分类。
3) SVM的损失函数就自带正则,而 LR 必须另外在损失函数之外添加正则项。
4)两个模型对数据和参数的敏感程度不同
SVM考虑分类边界线附近的样本(决定分类超平面的样本)。在支持向量外添加或减少任何样本点对分类决策面没有任何影响;
LR受所有数据点的影响。直接依赖数据分布,每个样本点都会影响决策面的结果。如果训练数据不同类别严重不平衡,则一般需要先对数据做平衡处理,让不同类别的样本尽量平衡。
参考文献:
https://www.cnblogs.com/ylHe/p/10488023.html
https://github.com/Heitao5200/DGB/blob/master/model/model_code/LR_data_w_tfidf.py
https://github.com/Heitao5200/DGB/blob/master/model/model_code/SVM_data_w_tfidf.py