逻辑回归算法梳理

逻辑回归的常见面试点总结:https://www.cnblogs.com/ModifyRong/p/7739955.html

1.逻辑回归和线性回归的区别与联系
逻辑回归和线性回归都属于广义线性回归模型。

线性回归:用于数值预测,预测的是一个连续的变量(如:价格,降水量等)
逻辑回归:用于解决二分类问题,预测的是一个概率值,用于分类算法
可以认为逻辑回归的输入就是线性回归的输出,其实也就是在线性回归的基础上,加上了一个
激励函数映射,称之为sigmoid函数。

在这里插入图片描述

2.逻辑回归的原理
在这里插入图片描述
预测函数的图像如图所示:当 概率=1 时,p>0.5; 当 概率=0 时,p<0.5
在这里插入图片描述
所以通过这个图,我们就可以把样本分为两类(0;1)

当预测值Y=1时,p >= 0.5;
当预测值Y=0时,p  < 0.5;

3 .逻辑回归损失函数推导及优化

损失函数为什么不用最小二乘法,而用最大似然函数 https://www.jianshu.com/p/699a13c9a253

在这里插入图片描述
由图可知

当预测值 Y = 1 的时候,随着p在[0.5,1)的区间上越小的时候,
对预测值Y=1的误差就越来越大,进而得出损失越来越大。   #线段2

当预测值 Y = 0 的时候,随着p在(0,0.5] 的区间上越大的时候,
对预测值Y=1的误差就越来越大,进而得出损失越来越大。	 #线段1

通过该分析可知,损失函数可能与对数函数存在某种关系。经过分析:损失函数为
在这里插入图片描述
等价于
在这里插入图片描述
得出损失函数:
在这里插入图片描述
经过最大似然得出的损失函数是一个凸函数,具有全局最优解,可以用梯度下降的方法来求损失函数的最小值。
在这里插入图片描述
在这里插入图片描述
4 .正则化与模型评估指标
正则化:如果我们有非常多的特征来拟合模型,那么这个学习曲线可能会把训练集拟合得非常好(损失函数几乎为0)但是却会几乎不具备泛化能力,对新的样本预测结果十分不理想,这也是之前讲过的:过拟合(overfitting)。如何解决过拟合问题呢?

  • 减少特征的数量(例如人为挑选或者通过PCA降维等方法)
  • 保持所有的特征,但是减少量级或参数θj的大小。当我们有很多特征时正则化也会工作得很好。
    以下介绍正则化:
    在这里插入图片描述
    在这里插入图片描述
    次数越高,就给它加的惩罚项越大,又要使得cost function最小,所以高次的θ就要越小,越高次的θ就趋近于0。进而对整个cost function来讲就可以忽略,从而使得模型的拟合效果不会每个点都拟合,从而达到减少过拟合的风险。

图片来自于https://blog.csdn.net/weixin_39469237/article/details/90216415

模型评估指标
对于分类准度的评价指标,常用的有:精准率;召回率;F1-score;ROC和AUC

再介绍精准率和召回率之前,我们先了解一下二分类的混淆矩阵(Confusion Matrix):
在这里插入图片描述
预测性分类模型,肯定是希望越准越好。那么,对应到混淆矩阵中,那肯定是希望 TP(预测值为真,真实值为真)TN(预测值为假,真实值为假) 的数量大,而 FP(预测值为假,真实值为真)FN(预测值为真,真实值为假) 的数量小。所以当我们得到了模型的混淆矩阵后,就需要去看有多少观测值在第二、四象限对应的位置,这里的数值越多越好;反之,在第一、三四象限对应位置出现的观测值肯定是越少越好。

二级指标

  • 精准率(Precision)
  • 灵敏度(Sensitivity):就是召回率(Recall)
  • 准确率(Accuracy)—— 针对整个模型
  • 特异度(Specificity)
    在这里插入图片描述

图片来自于https://blog.csdn.net/Orange_Spotty_Cat/article/details/80520839

直观理解recall和precision:
在这里插入图片描述
通过上面的四个二级指标,可以将混淆矩阵中数量的结果转化为0-1之间的比率。便于进行标准化的衡量。

在这四个指标的基础上在进行拓展,会产令另外一个三级指标。这个指标叫做F1 Score

三级指标 :这个指标叫做F1 Score ∈[ 0 , 1 ]
在这里插入图片描述
recall 和 precision 是两个互相矛盾的量,一方大,则另一方就小。因此不能说哪一方大,哪一方就好。需要根据具体的场景。 F1—score是recall 和 precision 的调和平均数,正好兼顾了二者。

ROC 和 AUC

详细介绍请见 https://blog.csdn.net/yc1203968305/article/details/78378893

逻辑回归的优缺点

详细请见 http://m.elecfans.com/article/691754.html


样本不均衡的解决办法

详细请见 https://blog.csdn.net/zhangf666/article/details/78860376


  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值