[ML] 逻辑斯谛回归与最大熵模型

最新推荐文章于 2022-06-12 10:54:43 发布

YasinQiu

最新推荐文章于 2022-06-12 10:54:43 发布

阅读量443

点赞数

分类专栏： ML

本文链接：https://blog.csdn.net/pangtouyu_qy/article/details/79554359

版权

ML 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

知识准备

极大似然估计

极大似然估计就是给定一个训练数据集T, 寻找模型的最优参数值θ, 达到一个这样的效果: 给模型输入训练集的X, 能以最大的概率输出其正确的分类Y. 求θ的过程就是最大化似然函数L(θ)的过程.
$L(θ) = P(T|θ) = P(x_1, ... ,x_N|θ) = \displaystyle\prod _{i=1} ^{N} P(x_i|θ)$ , 式中P(T|θ)是联合概率分布(训练集的样本都是独立同分布的).
求解方式: 一阶导数为0.
$\displaystyle\sum_{i=1}^N \nabla_θ \ln {P(x_i|θ) = 0}$ , 该方程的解只是个估计值, 只有样本数目趋于无限多时, 它才接近真实值.

1. 逻辑斯谛回归模型

逻辑斯谛回归 = logistic regression

1.1 逻辑斯谛分布

定义: X是连续随机变量, 如果X满足下列的分布函数和密度函数, 则X服从逻辑斯谛分布

$F(x) = P(X≤x) = \frac{1}{1+e^{-(x-μ)/γ}}$
$f(x) = F'(x) = \frac{e^{-(x-μ)/γ}}{1+e^{γ((x-μ)/γ)^2}}$

(μ为位置参数, γ为形状参数)

γ越小, F(x)中间增长的那一段就越陡.

1.2 二项逻辑斯谛回归模型

该模型是一种分类模型. 由条件概率P(Y|X)表示, X为实数, Y为0或1.
定义: 该模型是如下的条件概率分布.

$P(Y=1|x) = \frac {exp(w·x + b)} {1 + exp(w·x + b)}$
$P(Y=0|x) = \frac {1} {1 + exp(w·x + b)}$

w和b也可以写在一起

$P(Y=1|x) = \frac {exp(w·x )} {1 + exp(w·x)}$
$P(Y=0|x) = \frac {1} {1 + exp(w·x)}$

比较两个条件概率的大小, 将实例x分到概率值较大的那一类.

1.3 模型参数估计

可以应用极大似然估计法估计模型参数.
设: P(Y=1|x) = π(x), P(Y=0|x) = 1-π(x).
似然函数为: $\displaystyle\prod _{i=1}^N [π(x_i)]^{y_i} [1 - π(x_i)]^{1-y_i}$
对数似然函数为: $L(w) = \displaystyle\sum _{i=1}^N [y_i(w·x_i) - \log {(1+exp(w·x_i)}]$
参数(w)估计即为以对数似然函数为目标函数的最优化问题. 可以采用梯度下降法及牛顿法.

1.4 多项逻辑斯谛回归

多项逻辑斯谛回归模型可以表示为如下的形式:
$P(Y=k|x) = \frac {exp(w_k · x)} {1 + \displaystyle\sum_{k=1}^{K-1}exp(w_k · x)}$ , $k = 1, 2, ... ,K-1$
$P(Y=K|x) = \frac {1} {1 + \displaystyle\sum_{k=1}^{K-1}exp(w_k · x)}$

2. 最大熵模型

2.1 最大熵原理

原理表述: 在满足约束条件的模型集合中选取熵最大的模型.
设离散随机变量X的概率分布P(X), 则其熵为

$H(P) = \displaystyle\sum_x P(x) \log{P(x)}$
熵满足如下不等式: (|X|是X的取值个数)

$0≤H(P)≤\log{|X|}$

当且仅当X的分布是均匀分布时右边的等号成立, 即均匀分布的熵最大.
对最大熵原理的理解: 模型首先要满足约束条件(已有的事实), 在约束条件之外通常有不确定的部分, 对于这些部分, 我们认为他们是等可能的. Eg. X有四个取值{A, B, C, D}, 约束条件有2个:
P(A) + P(B) + P(C) +P(D) = 1
P(A) + P(B) = 0.4
我们用最大熵原理对X的概率分布进行估计的结果为: P(A) = P(B) = 0.2, P(C) = P(D) = 0.3

2.2 最大熵模型的定义

假设分类模型是一个条件概率分布P(Y|X).
给定训练集可以确定联合分布P(X,Y)的经验分布和边缘分布P(X)的经验分布, 分别以 $\hat P(X,Y)$ 和 $\hat P(X)$ 来表示:

$\hat P (X=x, Y=y) = \frac {v(X = x, Y = y)}{N}$

$\hat P (X=x) = \frac {v(X = x)}{N}$

定义一个特征函数f(x,y)描述输入x和输出y之间的某个事实:

$f(x,y)= \begin{cases} 1, & \text {x与y满足某一事实} \\ 0, & \text{否则} \end{cases}$

特征函数关于经验分布 $\tilde P(X, Y)$ 的期望值为:

$E_{\tilde P}(f) = \displaystyle\sum_{x,y} \tilde P(x,y) f(x,y)$

特征函数关于模型P(Y|X)与经验分布 $\hat P(X)$ 的期望值为:

$E_P(f) = \displaystyle\sum_{x,y} \hat P(x) P(y|x) f(x,y)$

如果模型能准确获取训练数据中的信息, 那么这两个期望应该是相等的.

$\displaystyle\sum_{x,y} \tilde P(x,y) f(x,y) = \displaystyle\sum_{x,y} \hat P(x) P(y|x) f(x,y)$

上式即为模型的约束条件, 有n个特征函数就有n个约束条件. 满足此约束条件且条件熵H(P)最大的模型即为最大熵模型

$H(P) = - \displaystyle\sum_{x,y} \hat P(x) P(y|x) \log{P(y|x)}$

2.3 最大熵模型的学习

最大熵模型的学习等价于约束最优化问题:
约束条件为: $E_P(f_i) - E_{\hat P}(f_i) = 0$ 且 $\displaystyle\sum_y P(y|x) = 1$
最优化的目标为: $\displaystyle\min _{P∈C} -H(p) = \displaystyle\sum_{x,y} \hat P(x)P(y|x)\log{P(y|x)}$
推导过程略(利用了拉格朗日函数)
推导结果(归结为求对偶函数的极大化)

2.4 极大似然估计

对偶函数的极大化等价于最大熵模型的极大似然估计.(证明略)

3. 模型学习的最优化算法

逻辑斯谛回归模型, 最大熵模型学习归结为以似然函数为目标函数的最优化问题, 求解方式通常为迭代算法. 此节提出更优化的算法.

3.1 改进的迭代尺度法

3.2 拟牛顿法

YasinQiu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[ML] 逻辑斯谛回归与最大熵模型

知识准备极大似然估计极大似然估计就是给定一个训练数据集T, 寻找模型的最优参数值θ, 达到一个这样的效果: 给模型输入训练集的X, 能以最大的概率输出其正确的分类Y. 求θ的过程就是最大化似然函数L(θ)的过程. L(θ)=P(T|θ)=P(x1,...,xN|θ)=∏i=1NP(xi|θ)L(θ)=P(T|θ)=P(x1,...,xN|θ)=∏i=1NP(xi|θ)L(θ) = P...
复制链接

扫一扫