逻辑斯蒂回归与最大熵模型

最新推荐文章于 2022-05-28 13:58:19 发布

Dovy

最新推荐文章于 2022-05-28 13:58:19 发布

阅读量438

点赞数

分类专栏：统计学习

本文链接：https://blog.csdn.net/Simplify_boy/article/details/106311818

版权

统计学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

概述

共同点：
都属于概率模型P(Y|X)；
对数线性模型：lnP(Y|X)=wx；在logit里面时关于x的线性函数，在最大熵里是关于x的函数的线性函数。
区别：
(1)逻辑斯蒂回归：判别模型，x为自变量
(2)最大熵模型：生成模型，y和x都有随机性，除了P(Y|X)，样本中的经验分布：
$\overline{P}(x)$

逻辑斯蒂回归模型

二维逻辑斯蒂回归模型

$ln\frac{P(Y=1|x)}{1-P(Y=1|x)}=w\cdot x+b （1）$

$P(Y=1|x)=\frac{e^{w\cdot x+b}}{1+e^{w\cdot x+b}}（2）$

注：对于输入x，输出y∈[0,1]的二分类问题，Y取1的概率 $P (Y = 1 ∣ x) = f (x) \in [0, 1]$
把概率属于[0,1]的模型对应到了属于(-∞，+∞)的线性模型
$logit(f(x))=ln\frac{P(Y=1|x)}{1-P(Y=1|x)}=ln\frac{f(x)}{1-f(x)}=w\cdot x+b（3）$

式中， $w\cdot x$ ∈(-∞，+∞)

通过公式（3）得到
$f(x)=\frac{e^{w\cdot x+b}}{1+e^{w\cdot x+b}}$ 即公式（2）
若 $w=(w^{(1)}, w^{(2)},\dots,w^{(n)},b)$ , $x=(x^{(1)}, x^{(2)},\dots,x^{(n)},1)$ ,则
$P(Y=1|x)=\frac{e^{w\cdot x}}{1+e^{w\cdot x}}$

$P(Y=0|x)=\frac{1}{1+e^{w\cdot x}}$

sigmoid激活函数： $f(x)=\frac{1}{1+e^{-x}}$
sigmoid的梯度消失：
$S^{'}(x)=\frac{e^{-x}}{(1+e^{-x})^2}=S(x)(1-S(x)) <= \frac{1}{4}$
所以，当网络较深时，反向误差传递时，会越来越小（假设经过n次sigmod那么误差要乘以小于 $(\frac{1}{4})^n$ 的数，呈指数下降）。即只有在深处的网络层得到训练，而浅层得不到训练。
当使用的激活函数导数大于1时，会出现loss呈指数增加的现象，即会引起梯度爆炸。
一般解决梯度消失问题，可以选择relu激活函数替代sigmoid，因为relu导数为1。

模型参数估计：极大似然函数

概率模型多用 $\underline{极大似然估计}$ ：给定参数w，求样本的联合概率密度（似然函数），使其最大，求出w。
原理：极大似然估计是建立在极大似然原理的基础上的一个统计方法，是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。通过若干次试验，观察其结果，利用试验结果得到某个参数值能够使样本出现的概率为最大，则称为极大似然估计。
最大似然估计的目的就是：利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值。
给定样本 $T=\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\}$ , 其中 $x_i\in{R^n},y_i\in\{0,1\}$ .
设
$P(Y=1|x)=\pi(x), P(Y=0|x)=1-\pi(x)$
似然函数(likehood function)为：
$P(y|x;w)=\prod^N_{i=1}[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}$

对数似然函数
$L(w)=\sum^N_{i=1}{[y_ilog\pi(x_i)+(1-y_i)log(1-\pi(x_i))]} \\=\sum^N_{i=1}{[y_ilog\frac{\pi(x_i)}{1-\pi(x_i)}+log(1-\pi(x_i))]} \\=\sum^N_{i=1}{[y_i(w\cdot x)-log(1+e^{(w\cdot x_i)})]}$

对 $L (w)$ 求极大值，得到 $w$ 的估计值。
假设 $w$ 的极大似然估计为 $\hat{w}$ ，那么学到的逻辑斯蒂回归模型为
$P(Y=1|x)=\frac{e^{\hat{w}\cdot x}}{1+e^{\hat{w}\cdot x}}$

$P(Y=0|x)=\frac{1}{1+e^{\hat{w}\cdot x}}$

记已知的样本集为：
$X={x_1,x_2,\dots,x_n}$
似然函数（likehood function）：联合概率密度函数 $P(X|\theta)$ 称为相对于 ${x_1,x_2,\dots,x_n}$ 的θ的似然函数。
$l(\theta)=P(X|\theta)=P(x_1,x_2,\dots,x_n|\theta)=\prod^N_{i=1}P(x_i,|\theta)$
这一概率随 $\theta$ 的取值而变化，它是 $\theta$ 的函数，称 $l(\theta)$ 为样本的似然函数。
$\hat{\theta}=argmaxP(X|\theta)=argmaxP(x_1,x_2,\dots,x_n|\theta)=argmax\prod^N_{i=1}P(x_i,|\theta)$
$lnl(\theta)$ 是 $l(\theta)$ 增函数， $lnl(\theta)$ 和 $l(\theta)$ 具有相同的最大值点
$\hat{\theta}=argmax lnl(\theta) = argmax\sum^N_{i=1}lnp(x_i|\theta)$

未知参数只有一个（θ为标量）
在似然函数满足连续、可微的正则条件下，极大似然估计量是下面微分方程的解：
$\frac{\partial l(\theta)}{\partial \theta} = 0$ 或者等价于
$\frac{\partial lnl(\theta)}{\partial \theta} = 0$

2.未知参数有多个（θ为向量）
则θ可表示为具有S个分量的未知向量：
$\theta=[\theta_1,\theta_2,\dots,\theta_s]$

记梯度算子：
$\bigtriangledown_\theta=[\frac{\partial}{\partial\theta_1},\frac{\partial}{\partial\theta_2},\dots,\frac{\partial}{\partial\theta_s}]$
若似然函数满足连续可导的条件，则最大似然估计量就是如下方程的解。
$\bigtriangledown_\theta lnl(\theta)=\sum^N_{i=1}\bigtriangledown_\theta lnP(x_i,\theta)=0$

方程的解只是一个估计值，只有在样本数趋于无限多的时候，它才会接近于真实值。

求最大似然估计量的一般步骤：
（1）写出似然函数；
（2）对似然函数取对数；
（3）求导数(偏导)；
（4）解似然方程。
最大似然估计的特点：
1.比其他估计方法更加简单；
2.收敛性：无偏或者渐近无偏，当样本数目增加时，收敛性质会更好；
3.如果假设的类条件概率模型正确，则通常能获得较好的结果。但如果假设模型出现偏差，将导致非常差的估计结果。
添加链接描述