(四)LR和SVM原理及实践

1、逻辑回归

知识点介绍:

逻辑回归(LR)就是一种减小预测范围,将预测值限定为[0,1]间的一种回归模型。回归方程如下:

实际上LR仅仅是在线性回归上增加了一个非线性函数(sigmoid)。

过程:

涉及的知识点主要有 极大似然、对数损失函数、梯度下降法更新参数。

模型评估:

LR用于二分类,常用的AUC评价模型性能。

参数说明:

sklearn.linear_model.LogisticRegression(penalty='l2', dual=False,
         ‍tol=0.0001, C=1.0, fit_intercept=True, intercept_scaling=1, 
         class_weight=None, random_state=None, solver='liblinear', 
         max_iter=100, multi_class='ovr', verbose=0, warm_start=False, n_jobs=1)‍

需要重点理解的参数:

penalty:正则化选择参数,参数可选值为l1和l2,分别对应l1正则化和l2正则化,默认是l2正则化。

调整该参数的目的主要是为了防止过拟合,一般penalty选择l2正则化就够啦,但是如果选择l2正则化发现依然过拟合,即预测效果还是很差的时候,就可以考虑l1正则化。如果模型的特征非常多,我们希望做一些特征选择(即把一些不重要的特征过滤掉),这个时候也可以考虑用l1正则化。

C:正则化系数,正则化强度的导数,必须是一个正数,值越小,正则化强度越大,即防止过拟合的程度更大。

dual:用来指明是否将原问题改成他的对偶问题,对偶问题可以理解成相反问题,比如原问题是求解最大值的线性规划,那么他的对偶问题就是转化为求解最小值的线性规划,适用于样本较小的数据集,因样本小时,计算复杂度较低。

2、支持向量机

知识点:

目标函数及其优化。

通过求解对偶问题求解原始问题的最优解。

合页损失函数。

SMO算法。

两者异同点:

相同点:

  1. 都是线性分类器。本质上都是求一个最佳分类超平面。
  2. 都是监督学习算法。
  3. 都是判别模型。通过决策函数,判别输入特征之间的差别来进行分类。 
    常见的判别模型有:KNN、SVM、LR。 
    常见的生成模型有:朴素贝叶斯,隐马尔可夫模型。

不同点:

1) 本质上是损失函数不同 
LR的损失函数是交叉熵: 
这里写图片描述 
SVM的目标函数: 
这里写图片描述

逻辑回归基于概率理论,假设样本为正样本的概率可以用sigmoid函数(S型函数)来表示,然后通过极大似然估计的方法估计出参数的值。 
支持向量机基于几何间隔最大化原理,认为存在最大几何间隔的分类面为最优分类面。

2)SVM 基于距离分类,LR 基于概率分类。

3) SVM的损失函数就自带正则,而 LR 必须另外在损失函数之外添加正则项。

4)两个模型对数据和参数的敏感程度不同 
SVM考虑分类边界线附近的样本(决定分类超平面的样本)。在支持向量外添加或减少任何样本点对分类决策面没有任何影响; 
LR受所有数据点的影响。直接依赖数据分布,每个样本点都会影响决策面的结果。如果训练数据不同类别严重不平衡,则一般需要先对数据做平衡处理,让不同类别的样本尽量平衡。

参考文献:

https://www.cnblogs.com/ylHe/p/10488023.html

https://github.com/Heitao5200/DGB/blob/master/model/model_code/LR_data_w_tfidf.py

https://github.com/Heitao5200/DGB/blob/master/model/model_code/SVM_data_w_tfidf.py

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值