【笔记】《统计学习方法》(6)逻辑斯谛回归与最大熵模型

最新推荐文章于 2022-07-04 20:22:46 发布

煎饼证

最新推荐文章于 2022-07-04 20:22:46 发布

阅读量271

点赞数

分类专栏：机器学习读书笔记

本文链接：https://blog.csdn.net/jianbinzheng/article/details/79508124

版权

机器学习同时被 2 个专栏收录

32 篇文章 0 订阅

订阅专栏

读书笔记

24 篇文章 4 订阅

订阅专栏

简书：https://www.jianshu.com/p/eb9d50312de8

第6章逻辑斯谛回归与最大熵模型

逻辑斯谛回归(logistic regression)是经典分类方法。最大熵是概率模型学习的一个准则，推广至分类问题即为最大熵模型(maximum entropy model)。二者都属于对数线性模型
逻辑斯谛分布(logistic distribution)，设X是连续随机变量，X服从逻辑斯谛分布是指X具有下列分布函数和密度函数， $\gamma\gt0$ 为形状参数， $\mu$ 为位置参数
$F (x) = P (X \leq x) = 1 1 + e - ( x - μ ) / γ f (x) = F' (x) = e - ( x - μ ) / γ γ ( 1 + e - ( x - μ ) / γ ) 2$ $F(x)=P(X\le x)=\frac{1}{1+e^{-(x-\mu)/\gamma}}\\ f(x)=F'(x)=\frac{e^{-(x-\mu)/\gamma}}{\gamma (1+e^{-(x-\mu)/\gamma})^2}$
分布函数属于逻辑斯谛函数，图形为S形曲线(sigmoid curve)，以 $(\mu,\frac{1}{2})$ 中心对称
二项逻辑斯谛回归模型(binomial logistic regression model)是一种分类模型，由条件概率分布P(Y|X)表示； $w\cdot x+b$ 扩充改造后为 $w\cdot x$

$P (Y = 1 | x) = exp ( w \cdot x + b ) 1 + exp ( w \cdot x + b ) P (Y = 0 | x) = 1 1 + exp ( w \cdot x + b )$ $P(Y=1|x)=\frac{\exp (w\cdot x+b)}{1+\exp (w \cdot x+b)}\\ P(Y=0|x)=\frac{1}{1+\exp (w\cdot x +b)}$
几率(odds)是指事件发生的概率和不发生的概率的比值： $\frac{p}{1-p}$
对数几率(log odds) $logit(p)=\log\frac{p}{1-p}$
输出Y=1的对数几率是由输入x的线性函数表示的模型，即逻辑斯谛回归模型(式1)，模型为(式2)
$log P ( Y = 1 | x ) 1 - P ( Y = 1 | x ) = w \cdot x P (Y = 1 | x) = exp ( w \cdot x ) 1 + exp ( w \cdot x ) P (Y = 0 | x) = 1 1 + exp ( w \cdot x )$ $\log \frac{P(Y=1|x)}{1-P(Y=1|x)}=w \cdot x \\ P(Y=1|x)=\frac{\exp(w \cdot x)}{1+ \exp (w \cdot x)} \\ P(Y=0|x)=\frac{1}{1+ \exp (w \cdot x)}$
学习时，应用极大似然估计法估计模型参数
$P (Y = 1 | x) = π (x), P (Y = 0 | x) = 1 - π (x)$ $P(Y=1|x)=\pi(x),\ \ P(Y=0|x)=1-\pi(x)$
似然函数为
$\prod i = 1 N [π (x i)] y i [1 - π (x i)] 1 - y i$ $\prod_{i=1}^{N}[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}$
对数似然函数为
$L (w) = \sum I = 1 N [y i log π (x i) + (1 - y i) log (1 - π (x i))] = \sum I = 1 N [y i log π ( x i ) 1 - π ( x i ) + log (1 - π (x i))] = \sum I = 1 N [y i (w \cdot x i) - log (1 + exp (w \cdot x i))]$ $L(w)=\sum_{I=1}^{N}[y_i \log \pi(x_i) +(1-y_i) \log (1-\pi(x_i))]\\ =\sum_{I=1}^{N}[y_i \log \frac{ \pi(x_i)}{1- \pi(x_i)} +\log (1-\pi(x_i))]\\ =\sum_{I=1}^{N}[y_i(w\cdot x_i)-\log (1+\exp(w\cdot x_i))]$
则为对 $L(w)$ 求极大值得到 $w$ 的估计值 $\hat{w}$ ，以对数似然函数为目标函数的最优化问题，通常采用梯度下降法和拟牛顿法求解
推广为多项逻辑斯谛回归模型(multi-nominal logistic regression model)用于多类分类，假设类别为{1,2,…,K}，则模型为
$P (Y = k | x) = exp ( w k \cdot x ) 1 + \sum K - 1 k = 1 exp ( w k \cdot x ) P (Y = K | x) = 1 1 + \sum K - 1 k = 1 exp ( w k \cdot x )$ $P(Y=k|x)=\frac{\exp(w_k \cdot x)}{1+ \sum_{k=1}^{K-1} \exp(w_k \cdot x)}\\ P(Y=K|x)=\frac{1}{1+ \sum_{k=1}^{K-1} \exp(w_k \cdot x)}$
最大熵模型(maximum entropy model)由最大熵原理推导实现
最大熵原理是概率模型学习的一个准则。认为熵最大的模型是最好的模型。即在满足约束条件下的模型集合中选取熵最大的模型
当X服从均匀分布时，熵最大
最大熵模型，假设满足所有约束条件的模型集合为
$C \equiv {P \in P | E p (f i) = E P ~ (f i), I = 1, 2, . . ., n}$ $\mathcal{C}\equiv \{ P \in \mathcal{P} | E_p(f_i)=E_{\tilde{P}}(f_i),\ I=1,2,...,n \}$
定义在条件概率分布P(Y|X)上的条件熵为
$H (P) = - \sum x, y P ~ (x) P (y | x) log P (y | x)$ $H(P)=-\sum_{x,y} \tilde{P}(x)P(y|x)\log P(y|x)$
则条件熵H(P)最大的模型称为最大熵模型，对数为自然对数
最大熵模型学习，约束最优化问题，求解对偶问题，拉格朗日乘子法。。。（略）
改进的迭代尺度法(improved iterative scaling,IIS)是一种最大熵模型学习的最优化方法
拟牛顿法(略)

煎饼证

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【笔记】《统计学习方法》(6)逻辑斯谛回归与最大熵模型

简书：https://www.jianshu.com/p/eb9d50312de8第6章逻辑斯谛回归与最大熵模型逻辑斯谛回归(logistic regression)是经典分类方法。最大熵是概率模型学习的一个准则，推广至分类问题即为最大熵模型(maximum entropy model)。二者都属于对数线性模型逻辑斯谛分布(logistic distribution)，设...
复制链接

扫一扫