逻辑回归与二元分类——含python代码

最新推荐文章于 2025-04-25 23:45:08 发布

ZesenChen

最新推荐文章于 2025-04-25 23:45:08 发布

阅读量8k

点赞数 5

分类专栏：机器学习文章标签：机器学习线性模型

本文链接：https://blog.csdn.net/ZesenChen/article/details/79589990

版权

机器学习专栏收录该内容

12 篇文章

订阅专栏

本文详细阐述了逻辑回归的基本原理，包括预测函数的推导、目标函数的形式以及梯度下降法的应用，并通过Python代码实现了逻辑回归模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

逻辑回归和线性回归的最终目标都是拟合一个线性函数 $y=\boldsymbol{\theta}^T\boldsymbol{x}$ ,使得我们的预测输出和真实输出之间的差异最小。它们的区别在于损失函数不一样，线性回归的损失函数( $MSE$ )是基于模型误差服从正态分布的假设推导出来的，而逻辑回归的损失函数则是基于极大似然的假设推导出来的，即所有样本结果的后验概率乘积最大。

预测函数

因为我们利用超平面 $\boldsymbol{\theta}^T\boldsymbol{x}=0$ 来分类，所以当一个样本落在超平面上，我们就可以认为该样本为正样本的概率等于负样本的概率，即：

P ( y = 1 | x ) P ( y = - 1 | x ) = 1

$\frac{P(y=1|\boldsymbol{x})}{P(y=-1|\boldsymbol{x})}=1$
对上式两边取对数：

l n P ( y = 1 | x ) P ( y = - 1 | x ) = 0 = θ T x

$ln\frac{P(y=1|\boldsymbol{x})}{P(y=-1|\boldsymbol{x})}=0=\boldsymbol{\theta}^T\boldsymbol{x}$
因为

P(y=1|x)+P(y=−1|x)=1 P ( y = 1 | x ) + P ( y = − 1 | x ) = 1 $P(y=1|\boldsymbol{x})+P(y=-1|\boldsymbol{x})=1$ ，所以可以得到：

l n P ( y = 1 | x ) 1 - P ( y = 1 | x ) = 0 = θ T x

$ln\frac{P(y=1|\boldsymbol{x})}{1-P(y=1|\boldsymbol{x})}=0=\boldsymbol{\theta}^T\boldsymbol{x}$
整理可得：

P (y = 1 | x) = e θ T x 1 + e θ T x

$P(y=1|\boldsymbol{x})=\frac{e^{\boldsymbol{\theta}^T\boldsymbol{x}}}{1+e^{\boldsymbol{\theta}^T\boldsymbol{x}}}$
所以

P(y=−1|x)=1−P(y=1|x)=11+eθTx P ( y = − 1 | x ) = 1 − P ( y = 1 | x ) = 1 1 + e θ T x $P(y=-1|\boldsymbol{x})=1-P(y=1|\boldsymbol{x})=\frac{1}{1+e^{\boldsymbol{\theta}^T\boldsymbol{x}}}$ ，

P(y=1|x) P ( y = 1 | x ) $P(y=1|\boldsymbol{x})$ 的分子分母同时除以

eθTx e θ T x $e^{\boldsymbol{\theta}^T\boldsymbol{x}}$ 得到

11+e−θTx 1 1 + e − θ T x $\frac{1}{1+e^{-\boldsymbol{\theta}^T\boldsymbol{x}}}$ ，这就是

sigmoid s i g m o i d $sigmoid$ 函数的推导过程。其函数曲线如下图所示：

我们可以将其理解为一种非线性变换，目的是把

(−∞,+∞) ( − ∞ , + ∞ ) $(-\infty,+\infty)$ 的数值映射到0到1之间，我们将映射结果视为

y=1 y = 1 $y=1$ 概率。

sigmoid s i g m o i d $sigmoid$ 函数有一个重要的性质：

f' (z) = f (z) (1 - f (z))

$f'(z)=f(z)(1-f(z))$
该性质在后面求偏导数的时候会用到。

目标函数

我们令 $h(x)=\frac{1}{1+e^{-\boldsymbol{\theta}^T\boldsymbol{x}}}$ ，由前面的推导可以将 $h(x)$ 理解为样本点 $x$ 为正样本的概率 $P(y=1|\boldsymbol{x})$ ，即 $P(y=1|\boldsymbol{x})=h(x)$ 。根据极大似然估计的思想，各个样本的结果出现总概率(即后验概率乘积)需要达到最大值，即：

m a x {\prod i = 1 N P (y i = k i | x i)} (k i = - 1, 1)

$max\{\prod_{i=1}^{N}P(y_i=k_i|\boldsymbol{x_i})\}(k_i=-1,1)$
因为

1−h(x)=h(x) 1 − h ( x ) = h ( x ) $1-h(x)=h(x)$ ，所以上式取对数后可以得到：

m a x {\sum i = 1 N l n P (y i = k i | x i)} = = = m a x {\sum i = 1 N l n (h (y i x i))} m a x {\sum i = 1 N l n (1 1 + e - y i θ T x)} m i n {\sum i = 1 N l n (1 + e - y i θ T x)} (1) (2) (3)

$\begin{eqnarray} max\{\sum_{i=1}^{N}lnP(y_i=k_i|\boldsymbol{x_i})\}&=&max\{\sum_{i=1}^{N}ln(h(y_i\boldsymbol{x_i}))\}\\ &=&max\{\sum_{i=1}^{N}ln(\frac{1}{1+e^{-y_i\boldsymbol{\theta}^T\boldsymbol{x}}})\}\\ &=&min\{\sum_{i=1}^{N}ln(1+e^{-y_i\boldsymbol{\theta}^T\boldsymbol{x}})\} \end{eqnarray}$
这便是逻辑回归的优化目标函数，它的最终形式表示为：

J = 1 N \sum i = 1 N l n (1 + e - y i θ T x)

$J=\frac{1}{N}\sum_{i=1}^{N}ln(1+e^{-y_i\boldsymbol{\theta}^T\boldsymbol{x}})$
在吴恩达的机器学习课程中，逻辑回归的目标函数形式为：

J = 1 N \sum i = 1 N {- y i l n (h (x i)) - (1 - y i) l n (1 - h (x i))}

$J=\frac{1}{N}\sum_{i=1}^{N}\{-y_iln(h(\boldsymbol{x_i}))-(1-y_i)ln(1-h(\boldsymbol{x_i}))\}$
是因为它将负样本

yi y i $y_i$ 表示为0，它和我们推导出来的结果本质是相同的。

梯度下降

我们推导过程中有一步为： $max\{\sum_{i=1}^{N}ln(h(y_i\boldsymbol{x_i}))\}$ ，为了方便利用 $sigmoid函数的求导性质$ ，我们便把这个式子作为优化目标。要求一个凸函数的最大值，更新公式为：

θ = θ + \partial \partial θ J

$\boldsymbol{\theta}=\boldsymbol{\theta}+\frac{\partial}{\partial\theta}J$
令

g(θTx)=h(x)=11+e−θTx g ( θ T x ) = h ( x ) = 1 1 + e − θ T x $g(\boldsymbol{\theta}^T\boldsymbol{x})=h(\boldsymbol{x})=\frac{1}{1+e^{-\boldsymbol{\theta}^T\boldsymbol{x}}}$ ，优化目标可以变换为：

J(θ)=max{∑Ni=1ln(g(yiθTxi))} J ( θ ) = m a x { ∑ i = 1 N l n ( g ( y i θ T x i ) ) } $J(\boldsymbol{\theta})=max\{\sum_{i=1}^{N}ln(g(y_i\boldsymbol{\theta}^T\boldsymbol{x_i}))\}$ ，对我们的优化目标进行求导：

\partial \partial θ J = = = \sum i = 1 N 1 g ( y i θ T x i ) \cdot \partial \partial θ g (y i θ T x i) \sum i = 1 N 1 g ( y i θ T x i ) \cdot g (y i θ T x i) (1 - g (y i θ T x i)) \cdot \partial \partial θ (y i θ T x i) \sum i = 1 N (1 - g (y i θ T x i)) \cdot y i x i (4) (5) (6)

$\begin{eqnarray} \frac{\partial}{\partial\boldsymbol{\theta}}J&=&\sum_{i=1}^{N}\frac{1}{g(y_i\boldsymbol{\theta}^T\boldsymbol{x_i})}\cdot \frac{\partial}{\partial\boldsymbol{\theta}}g(y_i\boldsymbol{\theta}^T\boldsymbol{x_i})\\ &=&\sum_{i=1}^{N}\frac{1}{g(y_i\boldsymbol{\theta}^T\boldsymbol{x_i})}\cdot g(y_i\boldsymbol{\theta}^T\boldsymbol{x_i})(1-g(y_i\boldsymbol{\theta}^T\boldsymbol{x_i}))\cdot \frac{\partial}{\partial\boldsymbol{\theta}}(y_i\boldsymbol{\theta}^T\boldsymbol{x_i}) \\ &=&\sum_{i=1}^{N}(1-g(y_i\boldsymbol{\theta}^T\boldsymbol{x_i}))\cdot y_i\boldsymbol{x_i} \end{eqnarray}$
所以梯度下降的更新方程为：

θ = θ + α N \sum i = 1 N (1 - g (y i θ T x i)) \cdot y i x i

$\boldsymbol{\theta}=\boldsymbol{\theta}+\frac{\alpha}{N}\sum_{i=1}^{N}(1-g(y_i\boldsymbol{\theta}^T\boldsymbol{x_i}))\cdot y_i\boldsymbol{x_i}$

代码块

自己用python撸了个逻辑回归，有问题请留言评论区：

import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn.preprocessing import scale
from random import random
from numpy import random as nr
from sklearn.model_selection import train_test_split

def sigmoid(x):
    return 1/(1+np.exp(-x))

def RandSam(train_data, train_target, sample_num):#随机采样传入训练函数进行迭代
    data_num = train_data.shape[0]
    if sample_num > data_num:
        return -1
    else:
        data = []
        target = []
        for i in range(sample_num):
            tmp = nr.randint(0,data_num)
            data.append(train_data[tmp])
            target.append(train_target[tmp])
    return np.array(data),np.array(target)

class LogisticClassifier(object):
    alpha = 0.01
    circle = 1000
    l2 = 0.01
    weight = np.array([])
    def __init__(self, learning_rate, circle_num, L2):
        self.alpha = learning_rate
        self.circle = circle_num
        self.l2 = L2
    def fit(self, train_data, train_target):
        data_num = train_data.shape[0]
        feature_size = train_data.shape[1]
        ones = np.ones((data_num,1))
        train_data = np.hstack((train_data,ones))
        #Y = train_target
        self.weight = np.round(np.random.normal(0,1,feature_size+1),2)
        for i in range(self.circle):
            delta = np.zeros((feature_size+1,))
            X,Y = RandSam(train_data, train_target, 50)
            for j in range(50):
                delta += (1-sigmoid(Y[j]*np.dot(X[j],self.weight)))* \
                          Y[j]*X[j]
            self.weight += self.alpha*delta-self.l2*self.weight

    def predict(self, test_data):
        data_num = test_data.shape[0]
        ones = np.ones((data_num,1))
        X = np.hstack((test_data,ones))
        return sigmoid(np.dot(X,self.weight))

    def evaluate(self, predict_target, test_target):
        predict_target[predict_target>=0.5] = 1
        predict_target[predict_target<0.5] = -1
        return sum(predict_target==test_target)/len(predict_target)

if __name__ == "__main__":
    cancer = load_breast_cancer()
    xtr, xval, ytr, yval = train_test_split(cancer.data, cancer.target, \
    test_size=0.2, random_state=7)
    logistics = LogisticClassifier(0.01,2000, 0.01)
    logistics.fit(xtr, ytr)
    predict = logistics.predict(xval)
    print('the accuracy is ',logistics.evaluate(predict, yval),'.')