逻辑回归原理与癌症预测实战-CSDN博客

本文链接：https://blog.csdn.net/tianwei0822/article/details/86610479

1 逻辑回归的应用场景
广告点击率是否会被点击
是否为垃圾邮件
是否患病
是否为金融诈骗
是否为虚假账号
正例 / 反例
2 逻辑回归的原理
线型回归的输出就是逻辑回归的输入
激活函数
sigmoid函数 [0, 1]
1/(1 + e^(-x))
假设函数/线性模型
1/(1 + e^(-(w1x1 + w2x2 + w3x3 + …… + wnxn + b)))
损失函数
(y_predict - y_true)平方和/总数
逻辑回归的真实值/预测值是否属于某个类别
对数似然损失
log 2 x
优化损失
梯度下降
3 案例：癌症分类预测-良／恶性乳腺癌肿瘤预测
恶性 - 正例
流程分析：
1）获取数据
读取的时候加上names
2）数据处理
处理缺失值
3）数据集划分
4）特征工程：
无量纲化处理-标准化
5）逻辑回归预估器
6）模型评估
真的患癌症的，能够被检查出来的概率 - 召回率
4 分类的评估方法
1 精确率与召回率
1 混淆矩阵
TP = True Possitive
FN = False Negative
2 精确率(Precision)与召回率(Recall)
精确率
召回率查得全不全
工厂质量检测次品召回率
3 F1-score 模型的稳健型
总共有100个人，如果99个样本癌症，1个样本非癌症 - 样本不均衡
不管怎样我全都预测正例(默认癌症为正例) - 不负责任的模型
准确率：99%
召回率：99/99 = 100%
精确率：99%
F1-score: 2*99%/ 199% = 99.497%
AUC:0.5
TPR = 100%
FPR = 1 / 1 = 100%
2 ROC曲线与AUC指标
1 知道TPR与FPR
TPR = TP / (TP + FN) - 召回率
所有真实类别为1的样本中，预测类别为1的比例
FPR = FP / (FP + TN)
所有真实类别为0的样本中，预测类别为1的比例

逻辑回归与二分类