机器学习基础篇（八）——逻辑回归

最新推荐文章于 2024-02-10 16:27:32 发布

柚子味的羊

最新推荐文章于 2024-02-10 16:27:32 发布

阅读量566

点赞数 1

分类专栏：数据分析机器学习

本文链接：https://blog.csdn.net/qq_43368987/article/details/113928159

版权

机器学习算法逻辑回归

数据分析同时被 2 个专栏收录

33 篇文章 21 订阅

订阅专栏

机器学习

33 篇文章 26 订阅

订阅专栏

机器学习基础篇（八）——逻辑回归

一、简介

分类问题是机器学习中常见的一种问题，而逻辑回归则是非常适合二分类问题的一种算法。
逻辑回归可以将数据集中的点划分成为两个类别。例如，我们可以将数据分成A类和B类。模型将给出特定数据点属于B类的概率，如果它低于0.5，那么就属于A类。如果高于0.5，那么该数据点属于B类。（大部分情况下阈值设为0.5，特定情况下也可以设置为其他值）
举个栗子 如图所示，学生考试是否成功通过是一个典型的二分类问题。
在这里插入图片描述
学生的考试是否成功是由输入值所决定的，输入值既有连续性变量又有离散型变量，而标签值则是二分类的。 这种情况下，使用逻辑回归算法显得很有必要。

二、原理

线性回归的预测所输出的值为[-∞，∞],而逻辑回归所对应的预测输出值为[0，1]。这是因为，逻辑回归在线性回归的基础上，使用sigmoid函数创建了一个S形曲线，将预测值映射到了[0,1]中。
如图所示：
在这里插入图片描述
记得第一节学到的线性回归模型，在模型中，我们作出的模型函数为y=a0+a1x,其中a0称为偏差，a1则称为权重。而逻辑回归则是将上式运用sigmoid函数进行转化，得到了如下模型：

同样的，对于y=a0+a1x1+a2x2+…+anxn 可以使用sigmoid函数转化为：
在这里插入图片描述
其中：A代表权重，X代表输入的特征值，模型signoid函数给出了该样本属于某一类的概率，取值在[0,1]之间。
A=[a0,a1,a2…an],X=[x1,x2,x3…xn]

三、多项式逻辑回归

到目前为止，我们一直在考虑的都是二分类问题。那么对于多分类问题，例如数字识别问题，我们输出的值是0到9之间的所有整数。这种情况下，我们应该怎么做呢？
我们可以建立多个模型，将该问题转化为二分类问题。诸如，可以分为两类，1，非1；这样就变成了一个二分类问题。同理我们也可以对其他数字进行这种处理，建立模型。当然，具体的实现细节超过了我们本节的学习内容，在此不做赘述。

四、代码展示

# 多项式回归
from sklearn.linear_model import LogisticRegression
import numpy as np
import random
# 定义训练数据集的分类标签
def true_classifier(i):
    if i>=700:
        return 1
    return 0
# 创建一个1-1000内的随机数据集
x=np.array([random.randint(0,1000) for i in range(0,1000)])
# 逻辑回归模型需要建立一个二维的数组，所以我们首先改变下数组X的形状
x=x.reshape((-1,1))
# 对于每一个数据点，为其定义一个标签，这样我们就有了一千个样本，每个样本具有一个标签。标签为0,1，0代表失败，1代表成功
y=[true_classifier(x[i][0]) for i in range (0,1000)]
# 然后我们将Y也变成一个数组
y=np.array(y)
# 查看x和y的情况
# print("x****************************\n",x)
# print("y****************************\n",y)
# 建立逻辑回归模型，求解参数的方法设置为liblinear,其余方法有{'newton-cg','lbfgs','sag'},默认方法为liblinear
model=LogisticRegression(solver='liblinear')
# 使用逻辑回归模型训练数据集
model=model.fit(x,y)
# 创建100个数据作为测试集
samples=[random.randint(0,1000) for i in range(0,100)]
# 同理改变测试及数据的形状
samples=np.array(samples)
samples=samples.reshape(-1,1)
# 现在我们使用模型对于测试集进行测试，输出值为概率，class代表类别
clas=model.predict(samples)
proba=model.predict_proba(samples)
# 格式化输出
# 格式为[预测值]：所属分类，概率[属于0类的概率，属于1类的概率]
num_accurate=0
for i in range(0,100):
    if(true_classifier(samples[i]))==(clas[i]==1):
        num_accurate=num_accurate+1
    print(''+str(samples[i])+':所属分类'+str(clas[i])+',概率为'+str(proba[i]))

运行结果
在这里插入图片描述
…

五、小结

逻辑回归算法是基于线性回归的算法，并且将其扩展到分类问题上。虽然逻辑回归算法无法直接处理多分类问题，但是针对二分类问题还是十分有效并且易于实现的。面对二分类问题时，我们可以首先考虑使用逻辑回归算法。在sklearn库中使用逻辑回归算法十分简单，我们可以按照示例代码和注释进行操作。逻辑回归算法的基本思想是将训练集数据和所属标签一一对应，直接构建模型。与之前的算法一样，没有一个机器学习的算法是万能的，所以我们需要注意逻辑回归算法的适用条件并且在合适的时候使用。
自学自用，希望可以和大家积极沟通交流，小伙伴们加油鸭，如有错误还请指正，不喜勿喷，喜欢的小伙伴帮忙点个赞支持，蟹蟹呀