机器学习笔记（VII）线性模型(III)对数几率回归和极大似然估计

最新推荐文章于 2021-11-22 23:29:02 发布

王先生的副业

最新推荐文章于 2021-11-22 23:29:02 发布

阅读量2.5k

点赞数 3

分类专栏：机器学习机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/uncle_gy/article/details/78788737

版权

机器学习同时被 2 个专栏收录

46 篇文章 3 订阅

订阅专栏

机器学习

39 篇文章 5 订阅

订阅专栏

背景知识

常见回归模型

线性回归(linear regression)：

y = w T x + b (1)

$y=\mathbf{w}^T\mathbf{x}+b\tag{1}$
但是有时候预测值会逼近

y $\mathbf{y}$ 的衍生值比如输出标记在指数尺度上变化。

对数线性回归(log-linear regression):

ln y = w T x + b (2)

$\ln{y}=\mathbf{w}^T\mathbf{x}+b\tag{2}$

广义线性模型(generalized linear model):

y = g - 1 (w T x + b) ⇕ g (y) = w T x + b (3)

$y=g^{-1}(\mathbf{w}^T\mathbf{x}+b)\\ \Updownarrow\\ g(y)=\mathbf{w}^T\mathbf{x}+b\tag{3}$
其中

g(⋅) $g(\cdot)$ 称为联系函数,

g−1(⋅) $g^{-1}(\cdot)$ 是

g(⋅) $g(\cdot)$ 的反函数

对数几率回归

阶跃函数

y = ⎧ ⎩ ⎨ ⎪ ⎪ 0, 0.5, 1, z < 0; z = 0; z > 0;

$y=\left\{ \begin{aligned} 0, \quad&z\lt0;\\ 0.5, \quad&z=0;\\ 1, \quad&z\gt0;\\ \end{aligned} \right.$
对于二分类任务，其输出标记

y∈{0,1} $y\in\left\{0,1\right\}$
线性回归模型产生的预测值

z=wTx+b $z=\mathbf{w}^T\mathbf{x}+b$ ，因此最理想的情况就是“单位阶跃函数”但是按照广义线性模型的公式(3),”单位阶跃函数”没有反函数

反函数存在条件

函数存在反函数的充要条件是,函数的定义域与值域是一一映射；严格增（减）的函数一定有严格增（减）的反函数【反函数存在定理】.

对数几率函数（logistic function）

y = 1 1 + e - z (4)

$y=\dfrac{1}{1+e^{-z}}\tag{4}$
这是一种“Sigmoid函数”,它将

z $z$ 的值转化为一个接近0或者1的

y $y$ 的值，
将式（4）代入式（3）得到

y = 1 1 + e - ( w T x + b )

$y=\dfrac{1}{1+e^{-(\mathbf{w}^T\mathbf{x}+b)}}$
类似（2）式，此时可以化为：

ln y 1 - y = w T x + b (5)

$\ln{\dfrac{y}{1-y}}=\mathbf{w}^T\mathbf{x}+b\tag{5}$
此时如果将

y $y$ 视为样本

x $\mathbf{x}$ 作为正例的可能性，则

1−y $1-y$ 视为其实反例的可能性，两者的比值

y 1 - y

$\dfrac{y}{1-y}$ 称为几率，反映了

x $\mathbf{x}$ 作为正例的相对可能性，对几率取对数则得到“对数几率”（log odds,AKA logit）

ln y 1 - y

$\ln{\dfrac{y}{1-y}}$

极大似然估计

如何确定

y = 1 1 + e - ( w T x + b )

$y=\dfrac{1}{1+e^{-(\mathbf{w}^T\mathbf{x}+b)}}$ 中的

w $\mathbf{w}$ 和

b $b$
在（5）式中，将

y $y$ 视为类后验概率估计

p(y=1∣x) $p(y=1\mid\mathbf{x})$ 则可以重新改写为

p (y = 1 ∣ x) = e w T x + b 1 + e w T x + b p (y = 0 ∣ x) = 1 1 + e w T x + b

$p(y=1\mid\mathbf{x})=\dfrac{e^{\mathbf{w}^T\mathbf{x}+b}}{1+e^{\mathbf{w}^T\mathbf{x}+b}}\\ p(y=0\mid\mathbf{x})=\dfrac{1}{1+e^{\mathbf{w}^T\mathbf{x}+b}}\\$
于是可以通过”极大似然估计”(maximum likelihood method)来估计

w $\mathbf{w}$ 和

b $b$
给定数据集

D = {(x 1, y 1), (x 2, y 2), \dots, (x m, y m)} = {(x i, y i)} m i = 1

$D=\left\{(\mathbf{x}_1,y_1),(\mathbf{x}_2,y_2),\dots,(\mathbf{x}_m,y_m)\right\}=\left\{(\mathbf{x}_i,y_i)\right\}_{i=1}^{m}$
最大化“对数似然”

ℓ (w, b) = \sum i = 1 m ln p (y i ∣ w i; w, b) (likehood)

$\ell(\mathbf{w},b)=\sum\limits_{i=1}^{m}\ln{p(y_i\mid\mathbf{w}_i;\mathbf{w},b)}\tag{likehood}$
likehood最大就是要每个样本属于其真实标记的概率越大越好。似然项：

p (y i ∣ w i; w, b)

$p(y_i\mid\mathbf{w}_i;\mathbf{w},b)$

简单处理

1：令 $\mathbf{\beta}=(\mathbf{w};b),\hat{\mathbf{x}}=(\mathbf{x};1)$ 此时 $\mathbf{w}^T\mathbf{x}+b\Rightarrow\mathbf{\beta}^T\hat{\mathbf{x}}$
2:令

p 1 (x^i; β) = p (y = 1 ∣ x^; β) p 0 (x^; β) = p (y = 0 ∣ w^; β) = 1 - p 1 (x^; β)

$p_1(\hat{\mathbf{x}}_i;\mathbf{\beta})=p(y=1\mid\hat{\mathbf{x}};\mathbf{\beta})\\p_0(\hat{\mathbf{x}};\mathbf{\beta})=p(y=0\mid\hat{\mathbf{w}};\mathbf{\beta})=1-p_1(\hat{\mathbf{x}};\mathbf{\beta})$
3:将likehood中的似然项改写为

p (y i ∣ x i; w, b) = y i p 1 (x^i; β) + (1 - y i) p 0 (x^i; β) (result)

$\begin{aligned} p(y_i\mid\mathbf{x}_i;\mathbf{w},b)&=y_ip_1(\hat{\mathbf{x}}_i;\mathbf{\beta})+(1-y_i)p_0(\hat{\mathbf{x}}_i;\beta)\\ \end{aligned}\tag{result}\\$
因为

yi∈{0,1} $y_i\in\left\{0,1\right\}$
所以

yi=0 $y_i=0$ 则

p (y i = 0 ∣ x i; w, b) = 0 \times p 1 (x^i; β) + (1 - 0) p 0 (x^i; β) = p 0 (x^i; β)

$\begin{aligned} p(y_i=0\mid\mathbf{x}_i;\mathbf{w},b)&=0\times p_1(\hat{\mathbf{x}}_i;\mathbf{\beta})+(1-0)p_0(\hat{\mathbf{x}}_i;\beta)\\ &=p_0(\hat{\mathbf{x}}_i;\beta) \end{aligned}$
如果

yi=1 $y_i=1$ 则

p (y i = 1 ∣ x i; w, b) = 1 \times p 1 (x^i; β) + (1 - 1) p 0 (x^i; β) = p 1 (x^i; β)

$\begin{aligned} p(y_i=1\mid\mathbf{x}_i;\mathbf{w},b)&=1\times p_1(\hat{\mathbf{x}}_i;\mathbf{\beta})+(1-1)p_0(\hat{\mathbf{x}}_i;\beta)\\ &=p_1(\hat{\mathbf{x}}_i;\beta) \end{aligned}$
则两种情况相加
此时

ln p 0 (x^; β) = - ln (1 + e β T x^) (s0)

$\ln{p_0(\hat{\mathbf{x}};\beta)}=-\ln(1+e^{\beta^T\hat{\mathbf{x}}})\tag{s0}$
同样

ln p 1 (x^; β) = β T x^- ln (1 + e β T x^) (s1)

$\ln{p_1(\hat{\mathbf{x}};\beta)}=\beta^T\hat{\mathbf{x}}-\ln(1+e^{\beta^T\hat{\mathbf{x}}})\tag{s1}$
综合两种情况：

p (y i ∣ x i; β) = y 1 β T x^- ln (1 + e β T x^)

$p(y_i\mid\mathbf{x}_i;\mathbf{\beta})=y_1\beta^T\hat{\mathbf{x}}-\ln(1+e^{\beta^T\hat{\mathbf{x}}})$
如果

yi=0 $y_i=0$ 则

p(yi∣xi;β)=s0 $p(y_i\mid\mathbf{x}_i;\mathbf{\beta})=\text{s0}$
如果

yi=1 $y_i=1$ 则

p(yi∣xi;β)=s1 $p(y_i\mid\mathbf{x}_i;\mathbf{\beta})=\text{s1}$
则最终结果为：

ℓ (β) = \sum i = 1 m (y 1 β T x^- ln (1 + e β T x^))

$\ell(\beta)=\sum\limits_{i=1}^{m}\left(y_1\beta^T\hat{\mathbf{x}}-\ln(1+e^{\beta^T\hat{\mathbf{x}}})\right)$
此时可以使用不同的方法计算最优解

β∗ $\beta^*$

β * = arg min β ℓ (β)

$\beta^*=\mathop{\arg\min}\limits_{\beta}\ell{(\beta)}$

王先生的副业

关注

3
点赞
踩
16

收藏

觉得还不错? 一键收藏
4
评论
机器学习笔记（VII）线性模型(III)对数几率回归和极大似然估计

背景知识常见回归模型线性回归(linear regression)：y=wTx+b(1)y=\mathbf{w}^T\mathbf{x}+b\tag{1} 但是有时候预测值会逼近y\mathbf{y}的衍生值比如输出标记在指数尺度上变化。对数线性回归(log-linear regression):lny=wTx+b(2)\ln{y}=\mathbf{w}^T\mathbf{x}+b\tag{
复制链接

扫一扫

专栏目录