逻辑回归

最新推荐文章于 2024-07-27 10:38:25 发布

qq_43031234

最新推荐文章于 2024-07-27 10:38:25 发布

阅读量164

点赞数

本文链接：https://blog.csdn.net/qq_43031234/article/details/85044167

版权

逻辑回归
代价函数梯度下降推导公式
https://blog.csdn.net/ligang_csdn/article/details/53838743
参考文献：
https://blog.csdn.net/sinat_22840937/article/details/78502451

1.简介：
(1)逻辑回归是一种描述数字电路特点的工具，输出量是高，低电平，可以用二元常量（0,1）来表示。（0是负向类，1是正向类）
例子：邮件: 垃圾邮件 / 非垃圾邮件?
网上在线交易: 诈骗 (是 / 否)?
肿瘤: 恶性 / 良性 ?
(2)公式：
逻辑回归模型（S 形函数）：
在这里插入图片描述

中间变量：在这里插入图片描述

(3)图像
在这里插入图片描述

(4)代价函数：
误差平方和代价函数：
在这里插入图片描述
对数似然函数：

在这里插入图片描述

内在实际数值变换：逻辑回归实现二分类，只有0和1，当取0时，前面这一项为0，取1时，后面一项为0，符合二项分布。
在这里为什么不用最小二乘（误差平方和）代价函数，而使用对数似然函数：
https://blog.csdn.net/tsyccnh/article/details/79163834
答案是各自的相应变量y服从不同的概率分布。在linear Regression中，前提是y服从正态分布，而逻辑回归中的y值服从的是二项分布，非0即1，所以选用的是交叉熵的对数似然函数，
还有就是最小二乘的代价函数图像不是凸函数，梯度下降算法会停止与局部最优解，而对数似然函数可以求出最优解，是凸函数

(5)证明逻辑函数以对数似然函数作为代价函数时一个凸函数：https://blog.csdn.net/u012421852/article/details/79620810
(6)最优参数的选取，还是使用之前的方法：
在这里插入图片描述

在这里插入图片描述

(7)最终结果：在这里插入图片描述

2.分类算法模型的评估指标：
TP:实际为1，被预测为1，预测正确，实际值是1
FP：实际0，预测为1，预测错误，实际值是0
FN:实际为1，预测为0，预测错误，实际值是1
TN:实际为0，被预测为0，预测正确，实际值是0

横/纵（真实值，预测值） True 1 False 0
Postive 1 TP FP
Nacative 0 TN FN

TPR（True Positive Rate，又称灵敏度：sensitivity）：
（例如：真实值为1被正确预测成1的样本个数/真实结果全为1的样本个数）
FPR（False Positive Rate）：
例如：真实结果是0却被预测成1的样本个数/实际值为0的样本个数
FNR（False Negative Rate）：
例如：真实结果是1却被预测成0的样本个数/实际值为1的样本个数
TNR（True Negative Rate，又称特指度：specificity）：
真实值为0且被正确预测为0的样本个数/实际值为0的样本个数
以上是我们计算评估指标需要知道的知识点，最好理解，不可强记，接下来是真正的评估指标：
Precision：（查准率）：样本中预测对的个数/所有的样本
Recall:（召回率）：真实值是i且被预测成i/所有真实值为i的样本个数
F1-Score：（2召回率查准率）/（召回率+查准率）
更趋向于值小的哪一个
ROC曲线：（Receiver Operating Characteristic）：横坐标为 FPR,纵坐标为TPR
ROC曲线中，关于四个关键点的解释：
(FPR=0,TPR=0)：将全部正例分为负例，全部负例分为负例
(FPR=0,TPR=1)：全部划分正确，即正例全部分为正例，负例全部分为负例
(FPR=1,TPR=1)：将全部负例分为正例，全部正例分为正例
所以，ROC曲线越靠近左上角，说明分类器的效果越好。
AUC:Area under ROC curve：Roc曲线下的面积，面积越大越好，因为ROC曲线越接近左上角模型分类越好，最大的面积为1，不可能小于1