逻辑回归的常见面试点总结:https://www.cnblogs.com/ModifyRong/p/7739955.html
1.逻辑回归和线性回归的区别与联系
逻辑回归和线性回归都属于广义线性回归模型。
线性回归:用于数值预测,预测的是一个连续的变量(如:价格,降水量等)
逻辑回归:用于解决二分类问题,预测的是一个概率值,用于分类算法
可以认为逻辑回归的输入就是线性回归的输出,其实也就是在线性回归的基础上,加上了一个
激励函数映射,称之为sigmoid函数。
2.逻辑回归的原理
预测函数的图像如图所示:当 概率=1 时,p>0.5; 当 概率=0 时,p<0.5
所以通过这个图,我们就可以把样本分为两类(0;1)
当预测值Y=1时,p >= 0.5;
当预测值Y=0时,p < 0.5;
3 .逻辑回归损失函数推导及优化
损失函数为什么不用最小二乘法,而用最大似然函数 https://www.jianshu.com/p/699a13c9a253
由图可知
当预测值 Y = 1 的时候,随着p在[0.5,1)的区间上越小的时候,
对预测值Y=1的误差就越来越大,进而得出损失越来越大。 #线段2
当预测值 Y = 0 的时候,随着p在(0,0.5] 的区间上越大的时候,
对预测值Y=1的误差就越来越大,进而得出损失越来越大。 #线段1
通过该分析可知,损失函数可能与对数函数存在某种关系。经过分析:损失函数为
等价于
得出损失函数:
经过最大似然得出的损失函数是一个凸函数,具有全局最优解,可以用梯度下降的方法来求损失函数的最小值。
4 .正则化与模型评估指标
正则化:如果我们有非常多的特征来拟合模型,那么这个学习曲线可能会把训练集拟合得非常好(损失函数几乎为0)但是却会几乎不具备泛化能力,对新的样本预测结果十分不理想,这也是之前讲过的:过拟合(overfitting)。如何解决过拟合问题呢?
- 减少特征的数量(例如人为挑选或者通过PCA降维等方法)
- 保持所有的特征,但是减少量级或参数θj的大小。当我们有很多特征时正则化也会工作得很好。
以下介绍正则化:
次数越高,就给它加的惩罚项越大,又要使得cost function最小,所以高次的θ就要越小,越高次的θ就趋近于0。进而对整个cost function来讲就可以忽略,从而使得模型的拟合效果不会每个点都拟合,从而达到减少过拟合的风险。
图片来自于https://blog.csdn.net/weixin_39469237/article/details/90216415
模型评估指标
对于分类准度的评价指标,常用的有:精准率;召回率;F1-score;ROC和AUC
再介绍精准率和召回率之前,我们先了解一下二分类的混淆矩阵(Confusion Matrix):
预测性分类模型,肯定是希望越准越好。那么,对应到混淆矩阵中,那肯定是希望 TP(预测值为真,真实值为真) 与 TN(预测值为假,真实值为假) 的数量大,而 FP(预测值为假,真实值为真) 与 FN(预测值为真,真实值为假) 的数量小。所以当我们得到了模型的混淆矩阵后,就需要去看有多少观测值在第二、四象限对应的位置,这里的数值越多越好;反之,在第一、三四象限对应位置出现的观测值肯定是越少越好。
二级指标
- 精准率(Precision)
- 灵敏度(Sensitivity):就是召回率(Recall)
- 准确率(Accuracy)—— 针对整个模型
- 特异度(Specificity)
图片来自于https://blog.csdn.net/Orange_Spotty_Cat/article/details/80520839
直观理解recall和precision:
通过上面的四个二级指标,可以将混淆矩阵中数量的结果转化为0-1之间的比率。便于进行标准化的衡量。
在这四个指标的基础上在进行拓展,会产令另外一个三级指标。这个指标叫做F1 Score
三级指标 :这个指标叫做F1 Score ∈[ 0 , 1 ]
recall 和 precision 是两个互相矛盾的量,一方大,则另一方就小。因此不能说哪一方大,哪一方就好。需要根据具体的场景。 F1—score是recall 和 precision 的调和平均数,正好兼顾了二者。
ROC 和 AUC
详细介绍请见 https://blog.csdn.net/yc1203968305/article/details/78378893
逻辑回归的优缺点
样本不均衡的解决办法
详细请见 https://blog.csdn.net/zhangf666/article/details/78860376