Logistic regresion

最新推荐文章于 2022-10-03 22:14:49 发布

kakak_

最新推荐文章于 2022-10-03 22:14:49 发布

阅读量149

点赞数

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/kakak_/article/details/105113907

版权

38 篇文章 2 订阅

订阅专栏

回归和分类

线性回归的模型是求出输出特征向量Y和输入样本矩阵X之间的线性关系系数𝜃，满足𝐘=𝐗𝜃。此时Y是连续的，所以是回归模型。
如果Y是离散的，需要对Y再做一次函数转换，变为𝑔(𝑌)。令𝑔(𝑌)的值在某个实数区间的时候是类别A，在另一个实数区间的时候是类别B，以此类推，就得到了一个分类模型。
逻辑回归是分类模型。
如果结果的类别只有两种，那么就是一个二元分类模型了。

二元逻辑回归模型

函数g在逻辑回归中一般取为sigmoid函数，形式如下： $\frac{1}{1+e^{-z}}$

当z趋于正无穷时，𝑔(𝑧)趋于1，而当z趋于负无穷时，𝑔(𝑧)趋于0
令𝑔(𝑧)中的z为：𝑧=𝑥𝜃，这样就得到了二元逻辑回归模型的一般形式： $h_{\theta}(x) = \frac{1}{1+e^{-x\theta}}$
如果ℎ𝜃(𝑥)>0.5 ，即𝑥𝜃>0, 则y为1。如果ℎ𝜃(𝑥)<0.5，即𝑥𝜃<0, 则y为0。y=0.5是临界情况，此时𝑥𝜃=0为。
从逻辑回归模型本身无法确定分类。ℎ𝜃(𝑥)的值越小，而分类为0的的概率越高，反之，值越大的话分类为1的的概率越高。如果靠近临界点，则分类准确率会下降。

二元逻辑回归的损失函数

$P(y=0|x,\theta ) = 1 - h_{\theta}(x)$

把这两个式子写成一个式子 $P(y|x,\theta ) = h_{\theta}(x)^y(1-h_{\theta}(x))^{1-y}$
用似然函数最大化来求解模型系数 $L(\theta) = \prod\limits_{i=1}^{m}(h_{\theta}(x^{(i)}))^{y^{(i)}}(1-h_{\theta}(x^{(i)}))^{1-y^{(i)}}$
对似然函数取对数后取反的表达式，即损失函数 $J(\theta) = -lnL(\theta) = -\sum\limits_{i=1}^{m}(y^{(i)}log(h_{\theta}(x^{(i)}))+ (1-y^{(i)})log(1-h_{\theta}(x^{(i)})))$

损失函数的优化

对于二元逻辑回归的损失函数极小化，常见的有梯度下降法，坐标轴下降法，等牛顿法等。
$J(\theta) = -Y^T logh_{\theta}(X) - (E-Y)^T log(E-h_{\theta}(X))$
我们用𝐽(𝜃)对𝜃向量求导： $\frac{\partial}{\partial\theta}J(\theta) = X^T(h_{\theta}(X) - Y )$
在梯度下降法中向量𝜃的迭代公式： $\theta = \theta - \alpha X^T(h_{\theta}(X) - Y )$
𝛼为梯度下降法的步长。

二元逻辑回归的正则化

逻辑回归的L1正则化损失函数的优化方法常用的有坐标轴下降法和最小角回归法。
$J(\theta) = -\sum\limits_{i=1}^{m}(y^{(i)}log(h_{\theta}(x^{(i)}))+ (1-y^{(i)})log(1-h_{\theta}(x^{(i)})))+\alpha ||\theta||_1$
逻辑回归的L2正则化损失函数的优化方法和普通的逻辑回归类似。
$J(\theta) = -\sum\limits_{i=1}^{m}(y^{(i)}log(h_{\theta}(x^{(i)}))+ (1-y^{(i)})log(1-h_{\theta}(x^{(i)})))+\frac{1}{2}\alpha||\theta||_2^2$

多元逻辑回归

二元逻辑回归

$P(y=1|x,\theta ) = h_{\theta}(x) = \frac{1}{1+e^{-x\theta}} = \frac{e^{x\theta}}{1+e^{x\theta}}$

$P(y=0|x,\theta ) = 1- h_{\theta}(x) = \frac{1}{1+e^{x\theta}}$

$\Rightarrow ln\frac{P(y=1|x,\theta )}{P(y=0|x,\theta)} = x\theta$

推广到多元逻辑回归

假设是K元分类模型，即样本输出y的取值为1，2，。。。，K。根据二元逻辑回归的经验，有：

$ln\frac{P(y=1|x,\theta )}{P(y=K|x,\theta)} = x\theta_1$

$ln\frac{P(y=2|x,\theta )}{P(y=K|x,\theta)} = x\theta_2$

…

$ln\frac{P(y=K-1|x,\theta )}{P(y=K|x,\theta)} = x\theta_{K-1}$
又有：

$\sum\limits_{i=1}^{K}P(y=i|x,\theta ) = 1$
$\Rightarrow P(y=k|x,\theta ) = e^{x\theta_k} \bigg/ 1+\sum\limits_{t=1}^{K-1}e^{x\theta_t}\;\;k = 1,2,...K-1$
$P(y=K|x,\theta ) = 1/ 1+\sum\limits_{t=1}^{K-1}e^{x\theta_t}$
最大似然法获取损失函数，梯度下降。