02_逻辑斯蒂回归

最新推荐文章于 2022-12-25 23:11:01 发布

yydafx

最新推荐文章于 2022-12-25 23:11:01 发布

阅读量243

点赞数

分类专栏： yydafx：机器学习

本文链接：https://blog.csdn.net/CSDN16YD/article/details/107323059

版权

yydafx：机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

逻辑斯蒂回归

逻辑斯蒂回归简单介绍
Logistic函数与Sigmoid函数的联系及推导
- Logistic与Sigmoid关系推导
逻辑斯蒂回归原理
逻辑斯蒂回归使用
- 二分类问题代码实现
- 多分类代码实现

逻辑斯蒂回归简单介绍

1）逻辑回归尽管有其名称，但它是用于分类而不是回归的线性模型。
2）逻辑斯蒂回归首先是用于解决二分类问题的(即：类别0、1)。通过延伸之后，逻辑斯蒂回归可以解决多分类。所以下面的公式推理也是在二分类的角度下进行推理的。
3）逻辑斯蒂回归的理论基础是最大似然
4）逻辑斯蒂回归就是：线性回归+Sigmoid函数
5）逻辑斯蒂回归更新规则： $\theta = \theta - \alpha\frac{\partial}{\partial_{\theta}}J(\theta)$
- $\frac{\partial}{\partial{\theta_j}}J(\theta) = \frac{1}{n}(\sum\limits_{i = 1}^n[ h_{\theta}(x_i)-y_i])x_j$
6）为什么要把线性回归套进去逻辑斯蒂函数中呢？？？
- 分类问题就是概率问题
  - 我们需要想方设法将问题变成概率，
  - 比较大小
- 逻辑斯蒂函数就是概率函数，无论给的值，多大多小变换到0~1之间，这也是逻辑斯蒂函数或者Sigmoid函数巧妙之处
7）逻辑斯蒂回归就是根据求事件的概率来进行划分的
- 事件概率：所有样本属于真实标记的概率

Logistic函数与Sigmoid函数的联系及推导

Logistic函数： $\frac{KP_0e^{rt}}{K + P_0(e^{rt} - 1)}$
Sigmoid函数： $\frac{1}{1 + e^{-x} }$
一个简单的Logistic函数可以表示为Sigmoid
- 即： $\frac{1}{1 + e^{-t} }$

Logistic与Sigmoid关系推导

$\frac{KP_0e^{rt}}{K + P_0(e^{rt} - 1)}$ , 其中 $P_0$ 为初始值，K为终值，r衡量曲线变化快慢
令 $P_0=1$ , $K = 2$ , $r = 1$
- $P(t)=\frac{2e^t}{1+e^t}$
- $P(t)=\frac{1}{\frac{1}{2e^t}+\frac{1}{2}}$ , 分子分母同除以 $2e^t$
- $P(t)=\frac{2}{\frac{1}{e^t}+1}$
- $P(t)=\frac{2}{1+e^{-t}}$
- 纵坐标统一缩小一半，Logistic 和Sigmoid就统一起来了
- 即： $\frac{1}{1 + e^{-t} }$
- 所以说：一个简单的Logistic函数可以表示为Sigmoid

逻辑斯蒂回归原理

逻辑斯蒂回归就是：线性回归+Sigmoid函数
逻辑斯蒂回归更新规则： $\theta = \theta - \alpha\frac{\partial}{\partial_{\theta}}J(\theta)$
- 即： $\frac{\partial}{\partial{\theta_j}}J'(\theta) = \frac{1}{n}(\sum\limits_{i = 1}^n[ h_{\theta}(x_i)-y_i])x_j$

第一步：预测函数`h(x)`

逻辑斯蒂回归：线性回归+Sigmoid函数
- 预测函数： $h_\theta(x)=\frac{1}{1+e^{-f(x)}}$
  - $h_{\theta}(x) = g(\theta^Tx) = \frac{1}{1 + e^{-\theta^Tx}}$
  - $\theta^Tx$ 是线性回归函数
    - $\theta 和 x 表示向量$
    - 一般情况下，给一个向量，默认是列向量
    - 原来的 $\theta$ 系数是列向量，现在 $\theta^T$ （转置）表示行向量
    - 行向量 $\theta^Tx$ :行向量点乘列向量（ $x_0\theta_0 + x_1\theta_1 + x_2\theta_2 + …… + x_n\theta_n$ ）
- 如上的预测函数概率函数，范围0 ~ 1之间
- 分类问题，计算机（死脑筋），比较概率的大小分类！！！

第二步：构建损失函数`cost`

预测函数： $h_{\theta}(X) = g(X\theta) = \frac{1}{1 + e^{-X\theta}}$
梯度下降更新规则： $\theta = \theta - \alpha\frac{\partial}{\partial_{\theta}}J(\theta)$
- 更新所有 $\alpha$ 是学习率，步幅
逻辑斯蒂回归的理论基础是最大似然
- 最大似然： $P(y|x;\theta) = (h_{\theta}(x))^{y}(1 - h_{\theta}(x))^{1-y}$
事件的概率：所有样本属于真实标记的概率
- 事件概率： $\prod\limits_{i = 1}^nP(y_i|x_i;\theta)$

公式推导

$L(\theta) = \prod\limits_{i=1}^n(h_{\theta}(x_i))^{y_i}(1 - h_{\theta}(x_i))^{1-y_i}$ ，将最大似然函数带入到事件概率函数里
$l(\theta) = ln{L(\theta)} =ln[ \prod\limits_{i=1}^n(h_{\theta}(x_i))^{y_i}(1 - h_{\theta}(x_i))^{1-y_i}]$ ，进行对数转换
$l(\theta) = \sum\limits_{i = 1}^n[y_iln(h_{\theta}(x_i)) + (1-y_i)ln(1-h_{\theta}(x_i))]$ ，化简
$J(\theta) = -l(\theta) = -\sum\limits_{i = 1}^n[y_iln(h_{\theta}(x_i)) + (1-y_i)ln(1-h_{\theta}(x_i))]$
对上式进行求导
- $\frac{\partial}{\partial{\theta_j}}J’(\theta) = -\frac{1}{n}\sum\limits_{i = 1}^n[y_i\frac{1}{h_{\theta}(x_i)}\frac{\partial}{\partial_{\theta_j}}h_{\theta}(x_i) + (1-y_i)\frac{1}{1-h_{\theta}(x_i)}\frac{\partial}{\partial_{\theta_j}}(1-h_{\theta}(x_i))]$ ①
- $\frac{\partial}{\partial{\theta_j}}J'(\theta) = -\frac{1}{n}\sum\limits_{i = 1}^n[y_i\frac{1}{h_{\theta}(x_i)}\frac{\partial}{\partial_{\theta_j}}h_{\theta}(x_i) - (1-y_i)\frac{1}{1-h_{\theta}(x_i)}\frac{\partial}{\partial_{\theta_j}}h_{\theta}(x_i)]$ ②
- $\frac{\partial}{\partial{\theta_j}}J'(\theta) = -\frac{1}{n}\sum\limits_{i = 1}^n[y_i\frac{1}{h_{\theta}(x_i)} - (1-y_i)\frac{1}{1-h_{\theta}(x_i)}]\frac{\partial}{\partial_{\theta_j}}h_{\theta}(x_i)$ ③
- $\frac{\partial}{\partial{\theta_j}}J'(\theta) = -\frac{1}{n}\sum\limits_{i = 1}^n[y_i\frac{1}{h_{\theta}(x_i)} - (1-y_i)\frac{1}{1-h_{\theta}(x_i)}]h_{\theta}(x_i)(1-h_{\theta}(x_i))\frac{\partial}{\partial_{\theta_j}}\theta^Tx$ ④
- $\frac{\partial}{\partial{\theta_j}}J'(\theta) = -\frac{1}{n}\sum\limits_{i = 1}^n[y_i(1-h_{\theta}(x_i)) - (1-y_i)h_{\theta}(x_i)]\frac{\partial}{\partial_{\theta_j}}\theta^Tx$ , 将 $h_{\theta}(x_i)(1-h_{\theta}(x_i))$ 乘进去并约分
- $\frac{\partial}{\partial{\theta_j}}J'(\theta) = -\frac{1}{n}\sum\limits_{i = 1}^n[y_i-h_{\theta}(x_i)y_i - h_{\theta}(x_i)+y_ih_{\theta}(x_i)]\frac{\partial}{\partial_{\theta_j}}\theta^Tx$ ，乘进去
- $\frac{\partial}{\partial{\theta_j}}J'(\theta) = -\frac{1}{n}\sum\limits_{i = 1}^n[y_i - h_{\theta}(x_i)]\frac{\partial}{\partial_{\theta_j}}\theta^Tx$ ，化简
- $\frac{\partial}{\partial{\theta_j}}J'(\theta) = \frac{1}{n}\sum\limits_{i = 1}^n[ h_{\theta}(x_i)-y_i]\frac{\partial}{\partial_{\theta_j}}\theta^Tx$ ，将负号放进去
- 最终公式： $\frac{\partial}{\partial{\theta_j}}J'(\theta) = \frac{1}{n}\sum\limits_{i = 1}^n[ h_{\theta}(x_i)-y_i]x_j$
将该公式带入到梯度下降更新规则里
- 梯度下降更新规则： $\theta = \theta - \alpha\frac{\partial}{\partial_{\theta}}J(\theta)$
- 即： $\theta_j = \theta_j - \alpha\frac{1}{n}(\sum\limits_{i=1}^{n}[h_{\theta}(x_i) -y_i])x_j$

逻辑斯蒂回归使用

二分类问题代码实现

概率计算公式：sigmoid
$\theta 就是线性方程的系数$
- $h_{\theta}(x) = \frac{1}{1 + e^{-\theta^Tx}}$

import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn import datasets

X,y = datasets.load_iris(True)
# 将三分类变成二分类
cond = y!=1
X = X[cond]
y = y[cond]

lr = LogisticRegression()
lr.fit(X,y)

print('=======算法概率计算==========')
proba_ = lr.predict_proba(X)
proba_[:10]

print('====手动概率计算(sigmoid函数)====')
w_ = lr.coef_
b_ = lr.intercept_
def fun(X):
    #线性方程，矩阵，批量计算
    return X.dot(w_[0]) + b_[0]

def sigmoid(x):
    #fun就是线性方程的返回值
    return 1/(1+np.e**-x)

f = fun(X)
p_1 = sigmoid(f)
p_0 = 1 - p_1
p_ = np.c_[p_0,p_1]
p_[:10]

多分类代码实现

概率计算公式：softmax
- $e^x/\sum_{i=1}^ne^{x_i}$
- softmax 将数据变成概率问题（所有的概率和是1）

import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn import datasets

# y三分类问题
X,y = datasets.load_iris(True)
# 打乱顺序
index = np.arange(150)#0,1,2,……149
np.random.shuffle(index)
X = X[index]
y = y[index]

lr = LogisticRegression(max_iter = 200)
lr.fit(X,y)
w_ = lr.coef_
b_ = lr.intercept_

print('=======算法概率计算==========')
proba_ = lr.predict_proba(X)
proba_[:10]

print('====手动概率计算(softmax函数)====')
# softmax将数值转换成概率，大的值，变的更大，小的值，变得更小
def softmax(x):
    return np.e**x/((np.e**x).sum(axis = 1).reshape(-1,1))

# w_ 和 b_是方程的斜率和截距
def linear(x):
    y = x.dot(w_.T) + b_ #矩阵运算，对齐！！！
    return y

y_pred = linear(X)
y_proba = softmax(y_pred) # softmax可以转化成概率
y_proba[:10]

① $\frac{\partial}{\partial_{\theta_j}}h_{\theta}(x_i)$ ，代表 $h_\theta(x_i)$ 的偏导。因为线性方程多个系数，没有办法直接求导，所以求导都是求偏导，将其中一个当作变量，其余假设成已知数。
② $\frac{\partial}{\partial_{\theta_j}}(1-h_{\theta}(x_i))$ , 根据求导法则得到 $-\frac{\partial}{\partial_{\theta_j}}h_{\theta}(x_i)$
③ $h_{\theta}(x) = g(\theta^Tx) = \frac{1}{1 + e^{-\theta^Tx}}$ ，根据sigmoid求导公式得到
④ a、 $\frac{\partial}{\partial_{\theta_j}}\theta^Tx$ , 这里的sigmoid函数是一个复合函数，我们对sigmoid函数进行求解之后还要对里面的函数进行求解
b、 $\frac{\partial}{\partial_{\theta_j}}\theta^Tx$ ， $T$ 是 $0 ， 1 ， 2 ， 3, . . .$ ，我们在对 $\theta_j$ 求偏导的时候实际上就是这个线性方程( $\theta^T x$ )的系数，即 $x_j$ 。
c、需要注意的是，在这儿 $\theta$ 是未知数， $x$ 是常量

yydafx

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
02_逻辑斯蒂回归

逻辑斯蒂回归逻辑斯蒂回归简单介绍Logistic函数与Sigmoid函数的联系及推导Logistic与Sigmoid关系推导逻辑斯蒂回归原理第一步：预测函数`h(x)`第二步：构建损失函数`cost`公式推导逻辑斯蒂回归使用二分类问题代码实现多分类代码实现逻辑斯蒂回归简单介绍1）逻辑回归尽管有其名称，但它是用于分类而不是回归的线性模型。2）逻辑斯蒂回归首先是用于解决二分类问题的(即：类别0、1)。通过延伸之后，逻辑斯蒂回归可以解决多分类。所以下面的公式推理也是在二分类的角度下进行推理的。3）逻辑斯
复制链接

扫一扫