逻辑回归算法梳理

最新推荐文章于 2022-10-15 16:25:49 发布

_老周

最新推荐文章于 2022-10-15 16:25:49 发布

阅读量211

点赞数

分类专栏：机器学习算法梳理

本文链接：https://blog.csdn.net/qq_34567109/article/details/90233980

版权

机器学习算法梳理专栏收录该内容

2 篇文章 0 订阅

订阅专栏

逻辑回归的常见面试点总结：https://www.cnblogs.com/ModifyRong/p/7739955.html

1.逻辑回归和线性回归的区别与联系
逻辑回归和线性回归都属于广义线性回归模型。

线性回归：用于数值预测，预测的是一个连续的变量（如：价格，降水量等）

逻辑回归：用于解决二分类问题，预测的是一个概率值，用于分类算法

可以认为逻辑回归的输入就是线性回归的输出，其实也就是在线性回归的基础上，加上了一个
激励函数映射，称之为sigmoid函数。

在这里插入图片描述

2.逻辑回归的原理
在这里插入图片描述
预测函数的图像如图所示:当概率=1 时，p>0.5; 当概率=0 时，p<0.5

所以通过这个图，我们就可以把样本分为两类（0；1）

当预测值Y=1时，p >= 0.5;
当预测值Y=0时，p  < 0.5;

3 .逻辑回归损失函数推导及优化

损失函数为什么不用最小二乘法，而用最大似然函数 https://www.jianshu.com/p/699a13c9a253

在这里插入图片描述
由图可知

当预测值 Y = 1 的时候，随着p在[0.5，1）的区间上越小的时候，
对预测值Y=1的误差就越来越大，进而得出损失越来越大。   #线段2

当预测值 Y = 0 的时候，随着p在(0，0.5] 的区间上越大的时候，
对预测值Y=1的误差就越来越大，进而得出损失越来越大。	 #线段1

通过该分析可知，损失函数可能与对数函数存在某种关系。经过分析：损失函数为
在这里插入图片描述
等价于

得出损失函数：

经过最大似然得出的损失函数是一个凸函数，具有全局最优解，可以用梯度下降的方法来求损失函数的最小值。

4 .正则化与模型评估指标
正则化：如果我们有非常多的特征来拟合模型，那么这个学习曲线可能会把训练集拟合得非常好（损失函数几乎为0）但是却会几乎不具备泛化能力，对新的样本预测结果十分不理想，这也是之前讲过的：过拟合（overfitting）。如何解决过拟合问题呢？

减少特征的数量（例如人为挑选或者通过PCA降维等方法）
保持所有的特征，但是减少量级或参数θj的大小。当我们有很多特征时正则化也会工作得很好。
以下介绍正则化：

次数越高，就给它加的惩罚项越大，又要使得cost function最小，所以高次的θ就要越小，越高次的θ就趋近于0。进而对整个cost function来讲就可以忽略，从而使得模型的拟合效果不会每个点都拟合，从而达到减少过拟合的风险。

图片来自于https://blog.csdn.net/weixin_39469237/article/details/90216415

模型评估指标
对于分类准度的评价指标，常用的有：精准率；召回率；F1-score；ROC和AUC

再介绍精准率和召回率之前，我们先了解一下二分类的混淆矩阵（Confusion Matrix）：
在这里插入图片描述
预测性分类模型，肯定是希望越准越好。那么，对应到混淆矩阵中，那肯定是希望 TP（预测值为真，真实值为真）与 TN（预测值为假，真实值为假）的数量大，而 FP（预测值为假，真实值为真）与 FN（预测值为真，真实值为假）的数量小。所以当我们得到了模型的混淆矩阵后，就需要去看有多少观测值在第二、四象限对应的位置，这里的数值越多越好；反之，在第一、三四象限对应位置出现的观测值肯定是越少越好。

二级指标

精准率（Precision）
灵敏度（Sensitivity）：就是召回率（Recall）
准确率（Accuracy）—— 针对整个模型
特异度（Specificity）

图片来自于https://blog.csdn.net/Orange_Spotty_Cat/article/details/80520839

直观理解recall和precision：
在这里插入图片描述
通过上面的四个二级指标，可以将混淆矩阵中数量的结果转化为0-1之间的比率。便于进行标准化的衡量。

在这四个指标的基础上在进行拓展，会产令另外一个三级指标。这个指标叫做F1 Score

三级指标：这个指标叫做F1 Score ∈[ 0 , 1 ]
在这里插入图片描述
recall 和 precision 是两个互相矛盾的量，一方大，则另一方就小。因此不能说哪一方大，哪一方就好。需要根据具体的场景。 F1—score是recall 和 precision 的调和平均数，正好兼顾了二者。

ROC 和 AUC

详细介绍请见 https://blog.csdn.net/yc1203968305/article/details/78378893

逻辑回归的优缺点

详细请见 http://m.elecfans.com/article/691754.html

样本不均衡的解决办法

详细请见 https://blog.csdn.net/zhangf666/article/details/78860376

_老周

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
逻辑回归算法梳理

1.逻辑回归和线性回归的区别与联系逻辑回归和线性回归都属于广义线性回归模型。线性回归：用于数值预测，预测的是一个连续的变量（如：价格，降水量等）逻辑回归：用于解决二分类问题，预测的是一个概率值，用于分类算法可以认为逻辑回归的输入就是线性回归的输出，其实也就是在线性回归的基础上，加上了一个激励函数映射，称之为sigmoid函数。2.逻辑回归的原理预测函数的图像如图所示:当概...
复制链接

扫一扫