机器学习——逻辑回归

最新推荐文章于 2022-11-25 22:19:46 发布

SpaceAutomation

最新推荐文章于 2022-11-25 22:19:46 发布

阅读量249

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/u014157632/article/details/100126892

版权

机器学习专栏收录该内容

12 篇文章 4 订阅

订阅专栏

一、逻辑回归

1、逻辑斯谛回归模型

我们可以用线性模型 $z=\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b$ 来做回归任务，如果我们用此线性模型来做分类任务，需要用一个单调可微函数 $g(\cdot)$ 将分类任务的真实标签 $y$ 与线性回归模型的预测值联系起来：
$y=g^{-1}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b\right)\tag{1}$
这里我们使用对数几率函数（logistic function）：
$y=\frac{1}{1+e^{-z}} \tag{2}$
它将 $z$ 值转化为一个接近0或1的值，结合（1）和（2）可以得到：
$y=\frac{1}{1+e^{-\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b\right)}} \tag{3}$

$\ln \frac{y}{1-y}=\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b$

将 $y$ 视为样本 $\boldsymbol{x}$ 是正例的可能性，则 $1 - y$ 是其反例的可能性，其比值 $\frac y{1-y}$ 称为几率（odds），反映了 $\boldsymbol{x}$ 作为正例的相对可能性，取对数得到 $\mathrm{ln}\frac y{1-y}$ ，称为对数几率。这实际上使用线性回归模型的预测结果取逼近真实标签的对数几率。

上面提到 $y$ 视为样本 $\boldsymbol{x}$ 是正例的可能性，即 $y=p(y=1|\boldsymbol{x})$ ，显然有：
$\begin{aligned} p(y&=1 | \boldsymbol{x})=\frac{e^{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b}}{1+e^{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b}} \\ p(y&=0 | \boldsymbol{x})=\frac{1}{1+e^{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b}} \end{aligned}$

2、极大似然估计

我们的任务就是估计参数 $\boldsymbol{w}$ 和 $b$ ，可以使用极大似然估计。给定数据集 $\left\{\left(\boldsymbol{x}_{i}, y_{i}\right)\right\}_{i=1}^{m}$ ，并设 $\boldsymbol{\theta}=\left\{\boldsymbol{w}, b\right\}$ ， $h_{\theta}(\boldsymbol{x})=\frac{e^{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b}}{1+e^{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b}}$ ，那么：
$\begin{array}{l}{p(y=1 | \boldsymbol{x} ; \boldsymbol{\theta})=h_{\theta}(\boldsymbol{x})} \\ {p(y=0 | \boldsymbol{x} ; \boldsymbol{\theta})=1-h_{\theta}(\boldsymbol{x})}\end{array}$
上式可以合写为：
$\boldsymbol{x} ; \boldsymbol{\theta})=\left(h_{\theta}(\boldsymbol{x})\right)^{y}\left(1-h_{\theta}(\boldsymbol{x})\right)^{1-y} \tag{4}$
则可以写出似然函数：
$\begin{aligned} L(\boldsymbol{\theta}) &=p(Y | \boldsymbol{X} ; \boldsymbol{\theta}) \\ &=\prod_{i=1}^{m} p\left(y_{i} | \boldsymbol{x}_{i} ; \boldsymbol{\theta}\right) \\ &=\prod_{i=1}^{m}\left(h_{\theta}\left(\boldsymbol{x}_{i}\right)\right)^{y_{i}}\left(1-h_{\theta}\left(\boldsymbol{x}_{i}\right)\right)^{1-y_{i}} \end{aligned}$
取对数得到对数似然函数：
$\begin{aligned} \ell(\boldsymbol{\theta}) &=\log L(\boldsymbol{\theta}) \\ &=\sum_{i=1}^{m} y_{i} \log h_{\theta}\left(\boldsymbol{x}_{i}\right)+\left(1-y_{i}\right) \log \left(1-h_{\theta}\left(\boldsymbol{x}_{i}\right)\right) \end{aligned}$
每个样本属于真实标签的概率越大越好，因此要最大化对数似然函数：
${\boldsymbol{\theta}}^{\ast}=\underset{\theta}{\arg \max } \ell(\boldsymbol{\theta})$
$\ell(\boldsymbol{\theta})$ 是关于 $\boldsymbol{\theta}$ 的高阶连续可导凸函数，可以使用梯度下降法、牛顿法等得到其最优解。以梯度下降法为例，我们需要最小化 $-\ell(\boldsymbol{\theta})$ ：
${\boldsymbol{\theta}}^{*}=\underset{\theta}{\arg \min } -\ell(\boldsymbol{\theta})$
对其求导得：
$\begin{aligned} \frac{\partial}{\partial \boldsymbol{\theta}} \ell(\boldsymbol{\theta}) &=\left(-y \frac{1}{h_{\theta}\left(\boldsymbol{x}\right)}+(1-y) \frac{1}{1-h_{\theta}\left(\boldsymbol{x} \right)}\right) \frac{\partial}{\partial \boldsymbol{\theta}} h_{\theta}\left(\boldsymbol{x}\right) \\ &=\left(-y \frac{1}{h_{\theta}\left(\boldsymbol{x} \right)}+(1-y) \frac{1}{1-h_{\theta}\left(\boldsymbol{x} \right)}\right) h_{\theta}\left(\boldsymbol{x} \right) \left(1-h_{\theta}(\boldsymbol{x} ) \right) \frac{\partial}{\partial \boldsymbol{\theta}} \boldsymbol{\theta}^{\mathrm T} \boldsymbol{x} \\ &=\left(-y\left(1-h_{\theta}\left(\boldsymbol{x} \right)\right)+(1-y) h_{\theta}\left(\boldsymbol{x}\right)\right) \boldsymbol{x} \\ &=\left(h_{\theta}(\boldsymbol{x})-y\right) \boldsymbol{x} \end{aligned}$
再更新梯度：
$\boldsymbol{\theta} :=\boldsymbol{\theta}-\alpha\left(h_{\theta}\left(\boldsymbol{x}\right)-y\right) \boldsymbol{x}$

参考资料

周志华《机器学习》
李航《统计学习方法》
吴恩达《机器学习》公开课

SpaceAutomation

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习——逻辑回归

一、逻辑回归1、逻辑斯谛回归模型我们可以用线性模型z=wTx+bz=\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+bz=wTx+b 来做回归任务，如果我们用此线性模型来做分类任务，需要用一个单调可微函数g(⋅)g(\cdot)g(⋅)将分类任务的真实标签yyy与线性回归模型的预测值联系起来：(1)y=g−1(wTx+b)y=g^{-1}\left(\...
复制链接

扫一扫

专栏目录