西瓜书第三章\对数几率回归

最新推荐文章于 2024-10-04 21:18:58 发布

杨世颜

最新推荐文章于 2024-10-04 21:18:58 发布

阅读量157

点赞数 8

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/2301_78471905/article/details/142496661

版权

模型

线性模型可以进行回归学习，而对于分类则不适用。对此，我们可以采用广义线性回归模型，找一个单调可微函数将真实标记y和线性回归模型的预测值联系起来。

对于二分类任务来说， $y\in \left \{ 0,1 \right \}$ ，预测值 $z=w^Tx+b$ ，则y关于z的函数可以表示为，

$y=\left\{\begin{matrix} 0,z<0;\\ 0.5,z=0; \\ 1,z>0. \end{matrix}\right.$

通常用连续函数 $y=\frac{1}{1+e^{-z}}$ 代替阶跃函数。变换得到 $\ln \frac{y}{1-y}=w^Tx+b$ ， $\frac{y}{1-y}$ 称为“几率”， $\ln\frac{y}{1-y}$ 称为“对数几率”。

策略

概率质量函数

若将 $y$ 视为 $p(y=1|x)$ ，则，

$p(y=1|x)=\frac{e^{w^{T}x+b}}{1+e^{w^Tx+b}}$

$p(y=0|x)=\frac{1}{1+e^{w^Tx+b}}$

令 $\beta =(w;b)$ ， $\hat{x}=(x;1)$ ，再令 $p_{1}(\hat{x};\beta )=p(y=1|\hat{x};\beta )$ ， $p_{0}(\hat{x};\beta )=p(y=0|\hat{x};\beta )$ ，则概率质量函数为， $p(y_i|\hat{x};\beta )=y_i\cdot p_1(\hat{x};\beta)+(1-y_i)\cdot p_0(\hat{x};\beta)$ 或 $p(y_i|\hat{x};\beta)=[p_1(\hat{x};\beta)]^{y_i}[p_0(\hat{x};\beta)]^{1-y_i}$ .

极大似然估计

对数似然函数： $l(\beta )=\sum_{i=1}^{m}\ln p(y_i|\hat{x};\beta)$ . 代入概率质量函数得到， $l(\beta )=\sum_{i=1}^{m}(y_i\beta ^T\hat{x_i}-\ln (1+e^{\beta ^T\hat{x_i}}))$ .

信息论

自信息： $I(x)=-\log _bp(x)$ .

信息熵： $H(x)=E[I(x)]=-\sum_xp(x)log_bp(x)$

相对熵（KL散度）： $D_{KL}(p||q)=\sum_xp(x)\log_b(\frac{p(x)}{q(x)})=\sum_xp(x)\log_bp(x)-$ $\sum_xp(x)\log_bq(x)$ ，p(x)为理想分布，q(x)为模拟分布， $-\sum_xp(x)\log_bq(x)$ 为交叉熵。 $\sum_xp(x)\log_bp(x)$ 为常量，当交叉熵最小时，相对熵最小。

对于对数几率回归，

$p(y_i)=\left\{\begin{matrix} p(1)=1,p(0)=0,y_i=1\\ p(1)=0,p(0)=1,y_i=0 \end{matrix}\right.$

$q(y_i)=\left\{\begin{matrix} \frac{e^{^{\beta ^T\hat x}}}{1+e^{^{\beta ^T\hat x}}},y_i=1\\ \frac{1}{1+e^{^{\beta ^T\hat x}}},y_i=0 \end{matrix}\right.$