可视化逻辑回归最佳拟合直线

最新推荐文章于 2024-05-13 14:52:19 发布

林下月光

最新推荐文章于 2024-05-13 14:52:19 发布

阅读量1.2k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_41857483/article/details/109408860

版权

机器学习专栏收录该内容

67 篇文章 21 订阅

订阅专栏

前言

在上一篇博客中，逻辑回归的最佳回归系数做了说明，也通过代码来实现了怎么求解最佳回归系数。下面希望用可视化的方式来进一步理解这个算法。

画决策边界

因为逻辑回归常常是解决二分类的问题，所以我们画的决策边界，说得通俗一点就是用一条直线来将不同的类别分割开来。

画样本点及逻辑回归拟合直线

def plot_best_fit(weights):
    """画样本点及逻辑回归拟合直线"""
    dataSet, labelSet = load_dataset()
    dataArr = array(dataSet)
    n = shape(dataArr)[0]  # 样本点个数(300)
    xcord1 = []
    ycord1 = []
    xcord2 = []
    ycord2 = []
    for i in range(n):
        if int(labelSet[i]) == 1:
            xcord1.append(dataArr[i, 1])
            ycord1.append(dataArr[i, 2])
        else:
            xcord2.append(dataArr[i, 1])
            ycord2.append(dataArr[i, 2])
    fig = pyplot.figure()
    ax = fig.add_subplot(111)
    # 1这类用红色方块表示
    ax.scatter(xcord1, ycord1, s=60, c="red", marker='s')
    # 0这类用绿色圆圈表示
    ax.scatter(xcord2, ycord2, s=60, c="green", marker="o")
    x = arange(-3.0, 3.0, 0.1)
    y = (-weights[0]-weights[1]*x)/weights[2]
    ax.plot(x, y)
    pyplot.xlabel('X1')
    pyplot.ylabel('X2')
    pyplot.show()

完整代码

from numpy import *
from matplotlib import pyplot

def load_dataset():
    """加载数据集"""
    dataSet = []  # 数据
    labelSet = []  # 标签
    fr = open('lr-testSet.txt')
    for line in fr.readlines():
        lineArr = line.strip().split()
        if len(lineArr) == 1:
            continue
        # 为了便于后续计算，将数据集第一列值设为1.0
        dataSet.append([1.0, float(lineArr[0]), float(lineArr[1])])
        labelSet.append(int(lineArr[2]))
    return dataSet, labelSet


def sigmoid(inX):
    """sigmoid函数"""
    return 1.0 / (1 + exp(-inX))


def grad_ascent(dataSet, labelSet):
    """梯度上升算法"""
    dataMatrix = mat(dataSet)  # 转成numpy矩阵
    labelMatrix = mat(labelSet).transpose()  # 先转成numpy矩阵再进行矩阵转置
    m, n = shape(dataMatrix)
    print("样本数and特征数：", m, n)
    alpha = 0.001  # 向目标移动的步长
    maxCycles = 500  # 设置的最大的迭代次数
    weights = ones((n, 1))  # 表示回归系数，3*1的矩阵，值全为1
    for k in range(maxCycles):
        h = sigmoid(dataMatrix*weights)  # 矩阵相乘  # m*3 X 3*1
        error = (labelMatrix - h)  # m*1 - m*1
        # alpha * dataMatrix.transpose() * error表示在每一列上的一个误差情况
        # 得到x1,x2,xn的系数的偏移量
        weights = weights + alpha * dataMatrix.transpose() * error
    return weights


def plot_best_fit(weights):
    """画样本点及逻辑回归拟合直线"""
    dataSet, labelSet = load_dataset()
    dataArr = array(dataSet)
    n = shape(dataArr)[0]  # 样本点个数(300)
    xcord1 = []
    ycord1 = []
    xcord2 = []
    ycord2 = []
    for i in range(n):
        if int(labelSet[i]) == 1:
            xcord1.append(dataArr[i, 1])
            ycord1.append(dataArr[i, 2])
        else:
            xcord2.append(dataArr[i, 1])
            ycord2.append(dataArr[i, 2])
    fig = pyplot.figure()
    ax = fig.add_subplot(111)
    # 1这类用红色方块表示
    ax.scatter(xcord1, ycord1, s=60, c="red", marker='s')
    # 0这类用绿色圆圈表示
    ax.scatter(xcord2, ycord2, s=60, c="green", marker="o")
    x = arange(-3.0, 3.0, 0.1)
    y = (-weights[0]-weights[1]*x)/weights[2]
    ax.plot(x, y)
    pyplot.xlabel('X1')
    pyplot.ylabel('X2')
    pyplot.show()


# 测试
dataSet, labelSet = load_dataset()
lr_w = grad_ascent(dataSet, labelSet)
print("最佳回归系数：\n", lr_w)
plot_best_fit(lr_w.getA())

对于y = (-weights[0]-weights[1]*x)/weights[2]的说明：
我们拟合直线表达式：f(x) = $w_0*x_0$ + $w_1*x_1$ + $w_2*x_2$ ，其中 $x_0$ 设置为1，设置sigmoid函数为0。因此，设定了0 = $w_0*x_0$ + $w_1*x_1$ + $w_2*x_2$ ， $x_2$ 对应的是画图时的y，即 $w_0*1$ + $w_1*x_1$ + $w_2*y$ = 0，所以求解出y = (- $w_0$ - $w_1$ * $x$ ) / $w_2$
代码中其他函数的实现说明见上篇博客