逻辑回归阶段概述

最新推荐文章于 2023-04-09 20:36:12 发布

立早大帅

最新推荐文章于 2023-04-09 20:36:12 发布

阅读量1.6k

点赞数 1

分类专栏：研一学习文章标签：逻辑回归机器学习算法

本文链接：https://blog.csdn.net/qq_41313964/article/details/121891070

版权

研一学习专栏收录该内容

11 篇文章 2 订阅

订阅专栏

一、逻辑回归

1、逻辑回归解决的是二分类问题

2、逻辑回归的输入就是线性回归的输出

3、激活函数：sigmoid函数

回归的结果输入到sigmoid函数当中，输出结果：[0, 1]区间中的一个概率值，默认为0.5为阈值

阈值意义（默认阈值为0.5）：因为逻辑回归解决的是二分类的问题，假如分成A和B两个类，如果一个样本的逻辑回归输出为0.6，0.6大于0.5的阈值所以它就是A类别的，所以只要样本的逻辑回归输出大于0.5那么就是A类别，如果样本的逻辑回归输出小于0.5那么就是B类别的样本。

4、逻辑回归运算过程：

二、损失和优化

对数似然损失：

实际带入：

h（x）为样本的逻辑回归结果，对数似然损失函数是分段函数，对于真实结果y=1和y=0分别带入求误差，最终的计算结果久是其损失值。

优化：同样使用梯度下降优化算法，去减少损失函数的值。这样去更新逻辑回归前面对应算法的权重参数，提升原本属于1类别的概率，降低原本是0类别的概率。

三、癌症分类预测-良／恶性乳腺癌肿瘤预测

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression

import ssl
ssl._create_default_https_context = ssl._create_unverified_context
# 1.获取数据
names = ['Sample code number', 'Clump Thickness', 'Uniformity of Cell Size', 'Uniformity of Cell Shape',
                   'Marginal Adhesion', 'Single Epithelial Cell Size', 'Bare Nuclei', 'Bland Chromatin',
                   'Normal Nucleoli', 'Mitoses', 'Class']

data = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data",
                  names=names)
data.head()
# 2.基本数据处理
# 2.1 缺失值处理
data = data.replace(to_replace="?", value=np.NaN)
data = data.dropna()
# 2.2 确定特征值,目标值
x = data.iloc[:, 1:10]
y = data["Class"]
# 2.3 分割数据
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=22)
# 3.特征工程(标准化)
transfer = StandardScaler()
x_train = transfer.fit_transform(x_train)
x_test = transfer.transform(x_test)
# 4.机器学习(逻辑回归)
estimator = LogisticRegression()
estimator.fit(x_train, y_train)
# 5.模型评估
y_predict = estimator.predict(x_test)
score=estimator.score(x_test, y_test)
print(score)

四、分类评估方法

混淆矩阵：

1、精确率：预测结果为正例样本中真实为正例的比例 ------- TP/(TP+FP)

2、召回率：真实为正例的样本中预测结果为正例的比例 ------- TP/(TP+FN)

3、F1-score：

五、ROC曲线与AUC指标

1、TPR与FPR

TPR = TP / (TP + FN) ------ 所有真实类别为1的样本中，预测类别为1的比例

FPR = FP / (FP + TN) ------ 所有真实类别为0的样本中，预测类别为1的比例

2、ROC曲线

如图

如图横坐标为FPR，纵坐标为TPR，左上角的点（TPR=1，FPR=0），为完美分类，也就是全对；点A（TPR>FPR），A的判断大体是正确的。中线上的点B（TPR=FPR），也就是B全都是蒙的，蒙对一半，蒙错一半；下半平面的点C（TPR<FPR），这个点类似要反着来理解，它说对你要理解为错的这样正确率才会高。

3、AUC值定义

AUC值为ROC曲线所覆盖的区域面积，显然，AUC越大，分类器分类效果越好。

　　AUC = 1，是完美分类器，采用这个预测模型时，不管设定什么阈值都能得出完美预测。绝大多数预测的场合，不存在完美分类器。

　　0.5 < AUC < 1，优于随机猜测。这个分类器（模型）妥善设定阈值的话，能有预测价值。

　　AUC = 0.5，跟随机猜测一样（例：丢铜板），模型没有预测价值。

　　AUC < 0.5，比随机猜测还差；但只要总是反预测而行，就优于随机猜测。

六、如何绘制ROC曲线

假设有6次展示记录，有两次被点击了，得到一个展示序列（1:1,2:0,3:1,4:0,5:0,6:0），前面的表示序号，后面的表示点击（1）或没有点击（0）。

然后在这6次展示的时候都通过model算出了点击的概率序列

原序列（ 1:1 , 2:0 , 3:1 , 4:0 , 5:0 , 6:0 ）

1	1	0	0	0	0
0.9	0.8	0.7	0.6	0.5	0.4

阈值为0.75

真实结果正例2，假例结果 4

绘制的步骤是：

1）把概率序列从高到低排序，得到顺序（ 1:0.9 , 3:0.8 , 2:0.7 , 4:0.6 , 5:0.5 , 6:0.4 ）；

2）从概率最大开始取一个点作为正类，取到点1，计算得到TPR=0.5，FPR=0.0；

3）从概率最大开始，再取一个点作为正类，取到点3，计算得到TPR=1.0，FPR=0.0；

4）再从最大开始取一个点作为正类，取到点2，计算得到TPR=1.0，FPR=0.25;

5）以此类推，得到6对TPR和FPR。

然后把这6对数据组成6个点(0,0.5),(0,1.0),(0.25,1),(0.5,1),(0.75,1),(1.0,1.0)。

这6个点在二维坐标系中能绘出来。

七、API介绍

sklearn.linear_model.LogisticRegression(solver='liblinear', penalty=‘l2’, C = 1.0)
- solver可选参数:{'liblinear', 'sag', 'saga','newton-cg', 'lbfgs'}，
  - 默认: 'liblinear'；用于优化问题的算法。
  - 对于小数据集来说，“liblinear”是个不错的选择，而“sag”和'saga'对于大型数据集会更快。
  - 对于多类问题，只有'newton-cg'， 'sag'， 'saga'和'lbfgs'可以处理多项损失;“liblinear”仅限于“one-versus-rest”分类。
- penalty：正则化的种类
- C：正则化力度

LogisticRegression方法相当于 SGDClassifier(loss="log", penalty=" "),SGDClassifier实现了一个普通的随机梯度下降学习。而使用LogisticRegression(实现了SAG)

立早大帅

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
逻辑回归阶段概述

一、逻辑回归1、逻辑回归解决的是二分类问题2、逻辑回归的输入就是线性回归的输出3、激活函数：sigmoid函数回归的结果输入到sigmoid函数当中，输出结果：[0, 1]区间中的一个概率值，默认为0.5为阈值阈值意义（默认阈值为0.5）：因为逻辑回归解决的是二分类的问题，假如分成A和B两个类，如果一个样本的逻辑回归输出为0.6，0.6大于0.5的阈值所以它就是A类别的，所以只要样本的逻辑回归输出大于0.5那么就是A类别，如果样本的逻辑回归输出小于0.5那么就是B类别
复制链接

扫一扫