逻辑回归 logistic regression 算法原理及优化

最新推荐文章于 2024-07-15 14:46:23 发布

木杉Vincent

最新推荐文章于 2024-07-15 14:46:23 发布

阅读量2.7k

点赞数 1

分类专栏：机器学习文章标签：机器学习逻辑回归分类

本文链接：https://blog.csdn.net/neverever01/article/details/84031606

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

概述

逻辑回归也叫对数几率回归

“逻辑回归”虽然叫回归，但是却是一种分类方法，跟线性回归(linear regression)有着显著的不同。

优点：无需事先假设数据分布，可以避免假设分布不准确带来的问题；不是预测出类别，而是给出近似概率；对率函数是任意阶可导的凸函数，有很好的数学性质。
缺点：

算法推导

给定训练数据集 $D=\{(x_i,y_i)\}_{i=1}^m$ ,样本 $x_i$ 由 $d$ 个属性描述，线性模型为:
$h_\omega(x)=\omega^Tx+b$
引入Sigmod函数
$f(z)=\frac{1}{1+e^z}$
则 $\in \{0,1\}$ ，将$h(x)=z $即为逻辑回归的模型.
$f_\omega(x)=\frac{1}{1+e^{h_\omega(x)}}$
代价函数为
$J(\omega)=\begin{cases} -log(f_\omega(x)) \; , if \; y=1 \\ -log(1-f_\omega(x))\;, y=0 \end{cases}$
这个代价函数还可以进一步简化为：
$J(\omega)=-ylog(f_\omega(x))-(1-y)log(1-f_\omega(x))$
我们的目标就是确定 $\omega$ ,使得 $J(\omega)$ 最小

使用梯度下降的方法：
对于训练集中的每个样本 ${x^i,y^i\}$ ,为了方便计算，将代价函数改写为：
$J(\omega)=-\frac{1}{m} \sum_{i=1}^{m}[y^ilog(f_\omega(x^i))+(1-y^i)log(1-f_\omega(x^i))]$
如果作以下denote，可以将其写成矢量化

$X=\begin{bmatrix} x_1^T&1 \\ x_2^T&1 \\ \vdots&\vdots \\ x_m^T&1 \end{bmatrix}$
$\omega=(\omega ;b)= \begin{bmatrix} \omega_1 \\ \omega_2\\ ... \\ \omega_d \\ b \end{bmatrix}$
$y=\begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_m \end{bmatrix} g(x)=\frac{1}{1+e^x}$

矢量化的写法为：（矢量化可以大大减少计算复杂度，在Python或者MATLAB等上可以实现）

$h=g(X\omega) \\ J(\omega)=\frac{1}{m} \cdot [-y^Tlog(h)-(1-y)^Tlog(1-h)]$
则其梯度为：
$\frac{\partial J(\omega)}{\partial \omega_j}=\frac{1}{m} \sum_{i=1}^{m}(f_\omega(x^i)-y^i)\cdot x_j^i$
梯度的矢量化写法为：
$\frac{\partial J(\omega)}{\partial \omega_j}=\frac{1}{m}X^T(g(X\omega)-y)$
所以，逻辑回归的梯度下降算法为：

重复此过程直至收敛：{
$\omega_j:=\omega_j - \frac{\alpha}{m}X^T(g(X\omega)-y)$
}

其中， $\alpha$ 为学习率，这是矢量化的写法，如果用普通写法，就逐个参数同时更新，这里就不写了。

关于代价函数采用-log()的解释

出发点：假设样本的分类为1( $y = 1$ )，我们希望当预测的结果越接近1，损失越小，预测结果越接近0，损失越大。考虑到函数 $y = l o g (x)$ 当log的底数大于1的函数图像：

将其倒转并取x值为(0,1]可得：

这样的函数就很好的契合了我们的目标，即越接近0值越大，越接近1值越小。
当样本分类为0( $y = 0$ )时也是一样的道理将x换成1-x即可。

木杉Vincent

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
逻辑回归 logistic regression 算法原理及优化

概述逻辑回归也叫对数几率回归“逻辑回归”虽然叫回归，但是却是一种分类方法，跟线性回归(linear regression)有着显著的不同。优点：无需事先假设数据分布，可以避免假设分布不准确带来的问题；不是预测出类别，而是给出近似概率；对率函数是任意阶可导的凸函数，有很好的数学性质。缺点：算法推导给定训练数据集D={(xi,yi)}i=1mD=\{(x_i,y_i)\}_{i=1}...
复制链接

扫一扫

专栏目录