【西瓜书笔记】2. 对数几率回归

最新推荐文章于 2022-10-25 16:30:21 发布

西风瘦马1912

最新推荐文章于 2022-10-25 16:30:21 发布

阅读量407

点赞数

分类专栏：《机器学习》西瓜书第15期

本文链接：https://blog.csdn.net/weixin_39236489/article/details/110676244

版权

《机器学习》西瓜书第15期专栏收录该内容

19 篇文章 0 订阅

订阅专栏

2.1 对数几率回归模型

指数族分布是一类分布的总称，该类分布的分布律（概率密度函数）的一般形式如下：
$p(y;\eta) = b(y)\exp(\eta^{T}T(y)-a(\eta)) \\ = b(y) \exp [\eta(\theta) \cdot T(y)-A(\theta)]\\ = b(y) \exp (\boldsymbol{\eta}(\boldsymbol{\theta}) \cdot \mathbf{T}(y)-A(\boldsymbol{\theta}))\\ = b(\mathbf{y}) \exp (\boldsymbol{\eta}(\boldsymbol{\theta}) \cdot \mathbf{T}(\mathbf{y})-A(\boldsymbol{\theta}))$
其中， $\eta$ 称为该分布的自然参数; $T (y)$ 为充分统计量，视具体的分布情况而定，通常是等于随机变量y本身； $a (y)$ 是配分函数； $b (y)$ 是关于随机变量 $y$ 的函数。常见的伯努利分布和正态分布均属于指数族分布。【 $\eta$ 的T不是充分统计量的T，是向量转置的意思】上面不同行对应 $\theta$ 和 $y$ 分别是向量和标量的情况。

首先证明伯努利分布属于指数族分布。

伯努利分布
$\phi^{y}(1-\phi)^{1-y}$
其中 $\in\{0,1\}$ , $p(y=1)=\phi$ .对上式做恒等变形：
$\begin{aligned} p(y) &=\phi^{y}(1-\phi)^{1-y} \\ &=\exp \left(\ln \left(\phi^{y}(1-\phi)^{1-y}\right)\right) \\ &=\exp \left(\ln \phi^{y}+\ln (1-\phi)^{1-y}\right)\\ &=\exp (y \ln \phi+(1-y) \ln (1-\phi)) \\ &=\exp (y \ln \phi+\ln (1-\phi)-y \ln (1-\phi)) \\ &=\exp (y(\ln \phi-\ln (1-\phi))+\ln (1-\phi)) \\ &=\exp \left(y \ln \left(\frac{\phi}{1-\phi}\right)+\ln (1-\phi)\right) \end{aligned}$
对比指数族分布的一般形式，我们有
$\begin{aligned} b(y) &=1 \\ \eta &=\ln \left(\frac{\phi}{1-\phi}\right) \\ T(y) &=y \\ a(\eta) &=-\ln (1-\phi)=\ln \left(1+e^{\eta}\right) \end{aligned}$
第二步，我么先给广义线性模型提出三条假设：

在给定 $x$ 的条件下，假设随机变量 $y$ 服从某个指数族分布
在给定 $x$ 的条件下，我们的目标是得到一个模型 $h (x)$ 能预测出 $T (y)$ 的期望值。
假设该指数族分布的自然参数 $\eta$ 和 $x$ 呈线性关系，即 $\eta=w^{T}x$

因为对数几率回归是在对一个二分类问题进行建模，并且假设被建模的随机变量取值为0或者1，我们可以假设 $y$ 服从伯努利分布。因此如果要构建一个线性模型来预测在给定 $x$ 的条件下 $y$ 的取值的话，可以考虑使用广义线性模型来进行建模。

第三步，构建对数几率回归。已知 $y$ 服从伯努利分布，而伯努利分布属于指数族分布，所以满足广义线性模型的第一条假设，接着根据第二条假设我们可以推得模型 $h (x)$ 的表达式为
$h(\boldsymbol{x})=E[T(y \mid \boldsymbol{x})]$
由于伯努利分布的 $\mid \boldsymbol{x})=y \mid \boldsymbol{x}$ ,所以：
$h(\boldsymbol{x})=E[y \mid \boldsymbol{x}] = 1 \times p(y=1 \mid x)+0 \times p(y=0 \mid x)=p(y=1 \mid x)=\phi$
所以:
$h(\boldsymbol{x})=\phi$
在第一步中国我们有:
$\begin{array}{l} \eta=\ln \left(\dfrac{\phi}{1-\phi}\right) \\ e^{\eta}=\dfrac{\phi}{1-\phi} \\ e^{-\eta}=\dfrac{1-\phi}{\phi} \\ e^{-\eta}=\dfrac{1}{\phi}-1 \\ 1+e^{-\eta}=\dfrac{1}{\phi} \\ \dfrac{1}{1+e^{\eta}} = \phi \end{array}$
所以我们有:
$h(\boldsymbol{x})=\phi=\dfrac{1}{1+e^{-\eta}}$
根据第三条假设 $\eta=\boldsymbol{w}^{T} \boldsymbol{x}$ ，最终有
$h(\boldsymbol{x})=\phi=\dfrac{1}{1+e^{-\boldsymbol{w}^{T} \boldsymbol{x}}}=p(y=1 \mid \boldsymbol{x})$
此即为对数几率回归模型。

2.2 极大似然估计

2.2.1 定义

设总体的概率密度函数（或者分布律）为 $f\left(y, w_{1}, w_{2}, \ldots, w_{k}\right)$ , $y_{1}, y_{2}, \ldots, y_{m}$ 是从该总体中抽出的样本。因为 $y_{1}, y_{2}, \ldots, y_{m}$ 相互独立且同分布，于是他们的联合概率密度函数（或联合概率）为
$L\left(y_{1}, y_{2}, \ldots, y_{m} ; w_{1}, w_{2}, \ldots, w_{k}\right)=\prod_{i=1}^{m} f\left(y_{i}, w_{1}, w_{2}, \ldots, w_{k}\right)$
其中, $w_{1}, w_{2}, \ldots, w_{k}$ 被看作固定但未知的参数。当我们已经观测到一组样本观测值 $y_{1}, y_{2}, \ldots, y_{m}$ 时，要去估计未知参数，一种直观的想法就是，那一组参数值使得现在的样本观测值出现的概率最大，哪一组参数可能就是真正的参数，我们就用它作为参数的估计值，这就是极大似然估计。【隶属于概率主义学派】

2.2.2 求解方法

通常记 $L\left(y_{1}, y_{2}, \ldots, y_{m} ; w_{1}, w_{2}, \ldots, w_{k}\right)=L(\boldsymbol{w})$ ,并称其为似然函数。于是求 $\boldsymbol{w}$ 的极大似然估计就转化为求 $L(\boldsymbol{w})$ 的最大值点。由于对数函数是单调递增函数，所以
$\ln L(\boldsymbol{w})=\ln \left(\prod_{i=1}^{m} f\left(y_{i}, w_{1}, w_{2}, \ldots, w_{k}\right)\right)=\sum_{i=1}^{m} \ln f\left(y_{i}, w_{1}, w_{2}, \ldots, w_{k}\right)$
与 $L(\boldsymbol{w})$ 有相同的最大值点。如果求对数的最大值点比较简单，我们就将求 $L$ 的最大值点转化为求 $\ln L$ 的最大值点，通常称 $\ln L(\boldsymbol{w})$ 为对数似然函数。

可以开始求对数几率回归的极大似然估计

已知：
$\begin{array}{l} p(y=1 \mid \boldsymbol{x})=\dfrac{e^{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b}}{1+e^{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b}} \\ p(y=0 \mid \boldsymbol{x})=\dfrac{1}{1+e^{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b}} \end{array}$
【 $\mid \boldsymbol{x}) = 1- p(y=1 \mid \boldsymbol{x})$ 】

令 $\boldsymbol{\beta}=(\boldsymbol{w} ; b), \hat{\boldsymbol{x}}=(\boldsymbol{x} ; 1)$ , 则上式可以化简为
$\begin{array}{l} p(y=1 \mid \boldsymbol{x})=\dfrac{e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}}}{1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}}}=p_{1}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta}) \\ p(y=0 \mid \boldsymbol{x})=\dfrac{1}{1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}}}=p_{0}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta}) \end{array}$

使用个小技巧就可以得到随机变量y的分布律表达式【0-1分布律的表达式】
$\mid \boldsymbol{x} ; \boldsymbol{w}, b)=y \cdot p_{1}(\hat{\boldsymbol{x} } ; \boldsymbol{\beta})+(1-y) \cdot p_{0}(\hat{\boldsymbol{x} } ; \boldsymbol{\beta})\\ p(y \mid \boldsymbol{x} ; \boldsymbol{w}, b)=\left[p_{1}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})\right]^{y}\left[p_{0}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})\right]^{1-y}$
由于此时的y是离散型，所以对数似然函数中的概率密度函数直接可以换成分布律
$\ell(\boldsymbol{w}, b):=\ln L(\boldsymbol{w}, b)=\sum_{i=1}^{m} \ln p\left(y_{i} \mid \boldsymbol{x}_{i} ; \boldsymbol{w}, b\right)\\ \Rightarrow \ell(\boldsymbol{\beta})=\sum_{i=1}^{m} \ln \left(y_{i} p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)+\left(1-y_{i}\right) p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right)$
将 $p_1, p_0$ 代入
$\ell(\boldsymbol{\beta})=\sum_{i=1}^{m} \ln \left(\dfrac{y_{i} e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}}{1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}}+\frac{1-y_{i}}{1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}}\right)\\ =\sum_{i=1}^{m} \ln \left(\dfrac{y_{i} e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}+1-y_{i}}{1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}}\right)\\ =\sum_{i=1}^{m}\left(\ln \left(y_{i} e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}+1-y_{i}\right)-\ln \left(1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}\right)\right)$
当 $y_i=0$ 时，
$\ell(\boldsymbol{\beta})=\sum_{i=1}^{m}\left(\ln \left(0 \cdot e^{\boldsymbol{\beta}^{T} \hat{x}_{i}}+1-0\right)-\ln \left(1+e^{\boldsymbol{\beta}^{T} \boldsymbol{x}_{i}}\right)\right)\\ =\sum_{i=1}^{m}\left(\ln 1-\ln \left(1+e^{\boldsymbol{\beta}^{T} \boldsymbol{x}_{i}}\right)\right)=\sum_{i=1}^{m}\left(-\ln \left(1+\epsilon^{\boldsymbol{\beta}^{T} \boldsymbol{x}_{i}}\right)\right)$
当 $y_i=1$ 时,
$\ell(\boldsymbol{\beta})=\sum_{i=1}^{m}\left(\ln \left(1 \cdot e^{\boldsymbol{\beta}^{T} \hat{x}_{i}}+1-1\right)-\ln \left(1+\epsilon^{\boldsymbol{\beta}^{T} \hat{x}_{i}}\right)\right)\\ =\sum_{i=1}^{m}\left(\ln e^{\boldsymbol{\beta}^{T} \boldsymbol{x}_{i}}-\ln \left(1+e^{\boldsymbol{\beta}^{T} \dot{x}_{i}}\right)\right)=\sum_{i=1}^{m}\left(\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}-\ln \left(1+e^{\boldsymbol{\beta}^{T} \hat{x}_{i}}\right)\right)$
因此可以吧对数似然函数简化为:
$\ell(\boldsymbol{\beta})=\sum_{i=1}^{m}\left(y_{i} \boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}-\ln \left(1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}\right)\right)$
最大化这个表达式等价于最小化其负值:
$\ell(\boldsymbol{\beta})=\sum_{i=1}^{m}\left(-y_{i} \boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}+\ln \left(1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}\right)\right)$
这就是西瓜书page59的式(3.27)

如果用另外一个分布律表达式 $\mid \boldsymbol{x} ; \boldsymbol{w}, b)=\left[p_{1}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})\right]^{y}\left[p_{0}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})\right]^{1-y}$ ,对数似然函数为
$\begin{aligned} \ell(\boldsymbol{\beta}) &=\sum_{i=1}^{m} \ln \left(\left[p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right]^{y_{i}}\left[p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right]^{1-y_{i}}\right) \\ &=\sum_{i=1}^{m}\left[\ln \left(\left[p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right]^{y_{i}}\right)+\ln \left(\left[p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right]^{1-y_{i}}\right)\right] \\ &=\sum_{i=1}^{m}\left[y_{i} \ln \left(p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right)+\left(1-y_{i}\right) \ln \left(p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right)\right] \\ &=\sum_{i=1}^{m}\left\{y_{i}\left[\ln \left(p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right)-\ln \left(p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right)\right]+\ln \left(p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right)\right\}\\ &=\sum_{i=1}^{m}\left[y_{i} \ln \left(\frac{p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)}{p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)}\right)+\ln \left(p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right)\right]\\ &=\sum_{i=1}^{m}\left[y_{i} \ln \left(e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}\right)+\ln \left(\frac{1}{1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}}\right)\right]\\ &=\sum_{i=1}^{m}\left(y_{i} \boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}-\ln \left(1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}\right)\right) \end{aligned}$

同样可以得到相同的结果。这就是对数几率回归的对数似然函数

2.2.3 数值求解极大似然函数

由于 $\ell(\boldsymbol{\beta})$ 是关于 $\boldsymbol{\beta}$ 的高阶可导连续凸函数，通过经典数值优化算法入梯度下降和牛顿法可以求解。比如牛顿法
$x_{n+1}=x_{n}-\frac{f^{\prime}\left(x_{n}\right)}{f^{\prime\prime}\left(x_{n}\right)}\\ \Rightarrow \boldsymbol{\beta}^{t+1}=\boldsymbol{\beta}^{t}-\left(\frac{\partial^{2} \ell(\boldsymbol{\beta})}{\partial \boldsymbol{\beta} \partial \boldsymbol{\beta}^{\mathrm{T}}}\right)^{-1} \frac{\partial \ell(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}}$

西风瘦马1912

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【西瓜书笔记】2. 对数几率回归

2.1 对数几率回归模型指数族分布是一类分布的总称，该类分布的分布律（概率密度函数）的一般形式如下：p(y;η)=b(y)exp⁡(ηTT(y)−a(η))=b(y)exp⁡[η(θ)⋅T(y)−A(θ)]=b(y)exp⁡(η(θ)⋅T(y)−A(θ))=b(y)exp⁡(η(θ)⋅T(y)−A(θ))p(y;\eta) = b(y)\exp(\eta^{T}T(y)-a(\eta)) \\= b(y) \exp [\eta(\theta) \cdot T(y)-A(\theta)]\\= b(
复制链接

扫一扫