Logistic regression逻辑回归

最新推荐文章于 2022-05-11 20:40:39 发布

蓝鲸123

最新推荐文章于 2022-05-11 20:40:39 发布

阅读量284

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/TH_NUM/article/details/104856332

版权

机器学习专栏收录该内容

41 篇文章 4 订阅

订阅专栏

Logistic 函数（或者叫做 sigmoid函数），LR做的假设是线性可分，可以从上次GNB中得到这种假设。
$\psi_{\alpha}(v)=\frac{1}{1+exp(-\alpha x)}$ 当 $\alpha$ 趋近于无穷的时候，上面Sigmoid趋向于阶越函数。

Logistic的分类边界
$\frac{1}{1+exp(-(w_0 + w^Tx))}$
$P (y = 0 ∣ x) = 1 - P (y = 1 ∣ x)$
分类边界的决策面是线性的。
分类边界为什么是线性的呢？
$log\frac{P(y=1|x)}{P(y=0|x)} = 0$
$log\frac{ \frac{1}{1+exp(-(w_0 + w^Tx))}}{\frac{1}{1+exp(w_0 + w^Tx)}} =0$
化简得到
$w^Tx+w_0=0$
重新表示一下Logistic regression
$\frac{1}{1+exp(-(w_0 + w^Tx))}$
输入变成 $\binom{1}{x}$ ,模型的权重 $\binom{w_0}{w}$
$\frac{1}{1+exp(-w^Tx)}$

多分类的Logistic Regression
y属于{1,…K}逻辑回归的公式可以定义为：
$\frac{exp(w^T_kx)}{1+\sum_{j=1}^{K-1}exp(w^T_jx)} , k<K$
对第K类，不用学习 $w_k$ 直接定义 $w_k=0$ ，所以 $exp(w^T_Kx)$

$\frac{1}{1+\sum_{j=1}^{K-1}exp(w^T_jx)}$ 上面的函数也叫做softmax 函数。

多分类的Logistic Regression的分类边界是什么样的呢？
Linear 线性， piecewise Linear 分段线性（拐点不可导），Smoothly nonlinear 一般非线性（相对piecewise Linear处处可导）.
多分类的Logistic Regression的分类边界是 piecewise Linear 分段线性。

如何训练Logistic Regression

考虑简单的二分类问题
$\frac{1}{1+exp(-w^Tx)}$
训练数据
$D = {(x_i,y_i)}_{j=1}^{N}$

可以使用MLE（极大似然）吗?
$\hat{w_{MLE}} = \underset{w}{argmax}\prod_{i=1}^NP(x_i,y_i|w)$
对于判别式的模型，我们有P(y|x)，但是没有P(x)的值，所以没法计算p(x,y),所以不能直接使用MLE.
使用最大化条件似然 Maximum Conditional Likelihood Estimate
$\hat{w} = \underset{w}{argmax}\prod_{i=1}^NP(y_i|x_i,w)$
判别式的方法不去学习p(x),直接学习p(Y|X).
带入 $\frac{1}{1+exp(-w^Tx)}$
得到 $\pounds (w) = log\prod_{i=1}^NP(y_i|x_i,w)=\sum_i[y_iw^Tx_i -log(1+exp(w^Tx_i))]$
$\hat{w} =\underset{w} {argmax} \pounds (w)$
$\pounds (w)$ 是log-concave 函数， $-\pounds(w)$ 是convex函数。
可以使用梯度下降更新 $-\pounds(w)$
$-\triangledown _w\pounds (w)=\binom{\frac{\partial \pounds (w)}{\partial \pounds (w_0)}}{\frac{\partial \pounds (w)}{\partial \pounds (w_d)}}$
$W_{t+1} = W_t - \eta \triangledown _w\pounds (w)|_{w_t}$

sigmoid函数的求导
$\psi(v) = \frac{1}{1+exp(-v)} => \triangledown_v\psi=\psi(1-\psi)$
$w_{t+1} = w_t + \eta\sum_{i=1}^{N}x_i(y_i-\mu_i^t), where \quad \mu_i^t=P(y=1|x_i,w_t)$