逻辑斯谛回归总结

Soft'Wind

已于 2022-02-17 00:05:44 修改

阅读量1.1k

点赞数

文章标签：回归机器学习算法

于 2022-02-15 21:14:20 首次发布

本文链接：https://blog.csdn.net/qq_18431031/article/details/122951369

版权

一、逻辑斯谛回归用于解决什么问题？

逻辑斯谛回归是经典分类方法，用于解决分类问题。二项逻辑斯谛回归可以解决二分类问题。逻辑回归假设数据服从伯努利分布，通过极大化似然函数的方法，运用梯度下降来求解参数来解决二分类问题。

二、逻辑斯谛回归为什么可以解决分类问题？

逻辑斯谛分布函数为：
$\le x)=1/1+e^{-(-x-\mu)/\gamma}$
logistic分布函数
分布函数图形是一条S型曲线，以 $(\mu,1/2)$ 为中心对称。

二项逻辑斯谛回归模型的条件概率分布如下：
$P(Y=1|x)=\frac{exp(w \cdot x+b)}{1+exp(w \cdot x + b)}$
$P(Y=0|x)=\frac{1}{1+exp(w \cdot x + b)}$

对于给定的输入实例 $x$ ，按照上述两式子可以求得两个概率，比较两个条件概率值的大小，将 $x$ 分到概率值较大的那一类。
若记 $w=(w^{(1)},w^{(2)},...,w^{(n)},b)^{T}$ ， $x=(x^{(1)},x^{(2)},...,x^{(n)},1)^{T}$ ，逻辑斯谛回归模型化为：
$P(Y=1|x)=\frac{exp(w \cdot x)}{1+exp(w \cdot x)}\quad(1)$
$P(Y=0|x)=\frac{1}{1+exp(w \cdot x)}\quad(2)$

一个事件的几率是指该事件发生的概率与该事件不发生的概率的比值。如果事件发生的概率是 $p$ ，那么该事件的几率是 $\frac{p}{1-p}$ ，逻辑斯谛回归模型的核心是 $l o g i t$ 函数，该函数为： $logit(p)=log\frac{p}{1-p}$
将函数代入 $P(Y=1|x)=\frac{exp(w \cdot x)}{1+exp(w \cdot x)}$
同时两边取对数得： $ln\frac{P(Y=1|x)}{1-P(Y=1|x)}=w \cdot x$
通过极大似然估计求解对应参数，将分类问题转化为概率问题映射至 $(0, 1)$ 区间。线性函数值越接近正无穷，概率值就越接近 $1$ ，线性函数值越接近负无穷，概率值就越接近 $0$ 。

三、如果求解逻辑斯谛模型实现二分类？

1.记 $h_\theta(x)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}}$ ，其中 $g(z)=\frac{1}{1+e^{-z}}$ ， $g^{'}(z)=g(z)(1-g(z))$ 则：
$P(y=1|x;\theta)=h_\theta(x)\\P(y=0|x;\theta)=1-h_\theta(x)$

2.观察上述两个式子，发现可以将它们合并成一条式子： $P(y|x;\theta)=(h_\theta(x))^y(1-h_\theta(x))^{1-y}$
当 $y = 1$ 时 $P(y=1|x;\theta)=h_\theta(x)$ ；当 $y = 0$ 时 $P(y=0|x;\theta)=1-h_\theta(x)$

3.似然函数： $L(\theta)=\prod \limits_{i=0}^{n}(h_\theta(x^{(i)}))^{y^{(i)}}(1-h_\theta(x^{(i)}))^{1-y^{(i)}}$

4.似然函数两边同时取对数： $lnL(\theta)=l(\theta)=\sum \limits_{i=1}^{n}y^{(i)}logh_\theta(x^{(i)})+(1-y^{(i)})log(1-h_\theta(x^{(i)}))$

5.目标是最大化似然函数： $\max \limits_{\theta} l(\theta)$

6.使用梯度上升算法求解参数 $\theta$ ，参数 $\theta$ 的迭代式为： $\theta _{j+1}=\theta _j + \alpha \bigtriangledown l(\theta)$

7.似然函数两边对 $\theta$ 求偏导：
$\bigtriangledown l(\theta) = \frac{\partial l(\theta)}{\partial \theta_j}=(y\frac{1}{g(\theta^Tx)}-(1-y)\frac{1}{1-g(\theta^Tx)})\frac{\partial g(\theta^Tx)}{\partial \theta_j}\\ \qquad \,=(y\frac{1}{g(\theta^Tx)}-(1-y)\frac{1}{1-g(\theta^Tx)})g(\theta^Tx)(1-g(\theta^Tx))\frac{\partial \theta^Tx}{\partial \theta_j}$
$\qquad \,=(y(1-g(\theta^Tx))-(1-y)g(\theta^Tx))x_j$
$\qquad \,=(y-h_\theta(x))x_j$

8.联合6、7步，可以得到 $\theta_j$ 的最终更新式子为： $\theta_{j+1}=\theta_j+\alpha \sum \limits_{i=1}^{n}(y^{(i)}-h_{\theta}(x^{(i)}))x_j^{(i)}$

四、逻辑斯谛回归实现二分类的代码

假设输入数据特征x是m行n列，组成一个m*n矩阵
$x=\begin{bmatrix} {x_{00}}&{\cdots}&{x_{0n}}\\ {\vdots}&{\ddots}&{\vdots}\\ {x_{m0}}&{\cdots}&{x_{mn}}\\ \end{bmatrix}$
数据标签y
$y=\begin{bmatrix} y_1 \cdots y_m \end{bmatrix}^T$
参数 $\theta$
$\theta=\begin{bmatrix} \theta_1 \cdots \theta_m \end{bmatrix}^T$
定义 $z=\theta^Tx$ ， $g(z)=1/1+e^{-z}$
误差损失为：loss = $h_\theta(x)-y = g(z)-y$
在此基础上可以得到参数迭代的向量化式子为： $w_{j+1}=w_j+\alpha x^T loss$

下面用一个二分类的例子说明， Banknote Dataset(钞票数据集)：这是从纸币鉴别过程中的图像里提取的数据，用来预测钞票的真伪的数据集。该数据集中含有1372个样本，每个样本由5个数值型变量构成，4个输入变量和1个输出变量，这是一个二分类问题。
Banknote Dataset可以从 $\url{https://archive.ics.uci.edu/ml/datasets/banknote+authentication}$ 下载，默认是txt格式，如下是数据集前10行的数据：

3.6216,8.6661,-2.8073,-0.44699,0
4.5459,8.1674,-2.4586,-1.4621,0
3.866,-2.6383,1.9242,0.10645,0
3.4566,9.5228,-4.0112,-3.5944,0
0.32924,-4.4552,4.5718,-0.9888,0
4.3684,9.6718,-3.9606,-3.1625,0
3.5912,3.0129,0.72888,0.56421,0
2.0922,-6.81,8.4636,-0.60216,0
3.2032,5.7588,-0.75345,-0.61251,0
1.5356,9.1772,-2.2718,-0.73535,0

具体代码如下所示：

import random
import numpy as np
import pandas as pd

dataset = pd.read_csv('data_banknote_authentication.txt', header=None)
X = dataset.iloc[:,0:4]
Y = dataset.iloc[:,[4]]

m = X.shape[0]
n = X.shape[1]

theta = np.random.rand(n, 1)

def log_likelihood(h, y):
    lik = np.dot(np.log(h).T, y) + np.dot(np.log(1 - h).T, 1 - y)
    return lik

def sigmoid(x, theta):
    sig = 1 / (1 + np.exp(-np.dot(x, theta)))
    return sig

def gradientAscent(alpha, x, loss):
    gra = alpha * np.dot(x.T, loss)
    return gra

def logistic(X, y, t_):
    theta = t_.copy()

    for step in range(80000):
        h = sigmoid(X, theta)
        L_ = log_likelihood(h, y)
        loss = y - h
        theta += gradientAscent(0.001, X, loss)
        return theta

if __name__ == '__main__':
    theta_ = logistic(X, Y, theta)
    print(theta_)

X = X.values.tolist()
Y = Y.values.tolist()
b = 0
for i in range(1000):
    z = 0
    j = random.randint(0, m - 1)
    for k in range (n):
        z = z + X[j][k] * theta_[k]
    sum = 1 / (1.0 + np.exp(-z))
    if sum > 0.5:
        if Y[j][0] == 1:
            b = b + 1
    else :
        if Y[j][0] == 0:
            b = b + 1
print("准确率：",b / 1000)

Soft'Wind

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
逻辑斯谛回归总结

一、逻辑斯谛回归用于解决什么问题？逻辑斯谛回归是经典分类方法，用于解决分类问题。二项逻辑斯谛回归模型是一种分类模型。可以解决二分类问题。二、逻辑斯谛回归为什么可以解决分类问题？逻辑斯谛分布函数为：F(x)=P(X≤x)=1/1+e−(−x−μ)/γF(x)=P(X \le x)=1/1+e^{-(-x-\mu)/\gamma}F(x)=P(X≤x)=1/1+e−(−x−μ)/γ分布函数图形是一条S型曲线，以(μ,1/2)(\mu,1/2)(μ,1/2)为中心对称。二项逻辑斯谛回归模型的条件概率
复制链接

扫一扫