逻辑斯谛回归logistic regression-最大熵

最新推荐文章于 2024-02-26 18:05:26 发布

JeJe_33

最新推荐文章于 2024-02-26 18:05:26 发布

阅读量303

点赞数 1

分类专栏： ML 文章标签：机器学习逻辑回归算法

本文链接：https://blog.csdn.net/qq_44807945/article/details/113819955

版权

ML 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

1.定义
1.1逻辑斯谛分布
服从逻辑斯谛分布的X具有以下分布函数与密度函数
$F(x)=P(X\leq x)=\frac{1}{1+e^{\frac{-(x-\mu)}{\gamma}}}$
$F'(x)=\frac{e^{\frac{-(x-\mu)}{\gamma}}}{\gamma({1+e^{\frac{-(x-\mu)}{\gamma}}})^2}$
分布函数满足( $\mu$ , $\frac{1}{2}$ )为中心对称，密度函数轴对称

1.2 二项逻辑斯蒂回归模型
$P(Y=1|x)=\frac{exp(wx)}{1+exp(wx+b)}$
$P(Y=1|x)=\frac{1}{1+exp(wx)}$
$w 为权重向量， b 为偏置， w = (w 1, w 2 . . . b) . T, x = (x 1, x 2 . . . 1) . T, w x 内积$

1.3参数估计，极大似然法
极大似然估计
估计参数 $w$
已知 $P (Y = 1 ∣ x) = p 1, P (Y = 0 ∣ x) = 1 - p 1$
即在已知参数未知x时，当前取值yi的概率为 $p1]^yi[1-p1]^{1-yi}$
则取得训练集结果的概率为累乘 $\prod_{i=1}{[p1]^yi[1-p1]^{1-yi}}$
已知当前结果概率最大，因此此时应取极大值，对数不影响极值且方便计算，因此通过对对数似然函数求导=0取得参数
回到公式：
$L(w)=\sum_{i=1}{(y_iwx_i-log(1+exp(wx)))}$ 求极大值
问题转换为以L(w)为目标函数的最优化问题，在逻辑斯谛中通常采用梯度下降与拟牛顿法求解

1.4多分类及多项逻辑斯谛回归模型
即Y取值为{1,2,…k}
$P(Y=K|x)=\frac{exp(w_kx)}{(1+\sum_{k=1}^{K-1}{exp(w_kx)}}$

2.最大熵
$H(P)=-\sum{P(x)log(P(x))}$

2.1琴生不等式证明等概率分布时熵最大
琴生不等式 $\in[0,1] 且\sum{pi}=1，存在\sum{pif(x_i) \le{f(\sum{pix_i)}}}$
$- p l o g p 为凸函数，可用琴生不等式$
$\frac{1}{k}H(P)=\sum{\frac{1}{k}(-plogp) \le (-(\sum{\frac{p}{k})log(\sum{\frac{p}{k}))}=(-\frac{1}{k}log\frac{1}{k})=\frac{1}{k}}log{k}}$
即H§ 在pi相等时最大

2.2最大熵原理与模型
最大熵原理认为，在满足条件的模型中，熵最大的模型最好。
模型：
$已知：\sum_y{P(y|x)=1,E_p(f_i)=E_p'(f_i)}$
$求maxH(P)=-\sum{P'(x)P(y|x)logP(y|x)}$
即求给定x，y分布中最大熵分布
通常将约束最优化问题转换成无约束最优化的对偶问题
$L(P,w)=-H(P)+w_0(1-\sum_y{P(y|x)})+\sum_{i}wi(E_p(f_i)-E_p'(f_i)$
$P_w(y|x)=\frac{1}{Z_w(x)}exp{(\sum{w_if_i(x,y}))}$
$\frac{1}{Z_w(x)}=\frac{1}{\sum{w_if_i(x,y)}}$
对数似然函数：
$L(w)=\sum_{x,y}{P(x,y)\sum{wif_i(x,y)}-\sum(P(x)logZ_w(x))}$

3.模型学习的最优化算法
3.1改进的迭代尺度法
输入：特征函数 $f_i$ 经验分布 $P^{'} (X, Y)$ 模型 $P_w(y|x)$
输出：最优参数值 $w_i^*$ 最优模型 $P_w^*$

1.对所有i $\in\{1,2,...n\}取w_i=0$
2.对每个i，解方程 $\sum{P'(x)P(y|x)fi(x,y)exp(\sigma_if^\#(x,y))}=E_P(f_i)$
$f^\#(x,y)=\sum{f_i(x,y)}$
更新 $w_i=w_i+\sigma_i$
3.重复直到所有w收敛

3.2 拟牛顿法
输入：特征函数 $f_i$ 经验分布 $P^{'} (X, Y)$ 目标函数 $f (w)$ ,梯度 $g (w) = f^{'} (w)$ 精度要求 $e$
输出：最优参数值 $w_i^*$ 最优模型 $P_w^*$

1.选定 $w^{(0)}$ ,取 $B_0$ 为正定对称矩阵，k=0
2.计算 $g_k=g(w^k)直到小于精度$ 得到 $w^*=w^k$ 否则继续
3.由 $B_kp_k =-g_k$ 求出 $p_k$
4.一维搜索，求 $\lambda_k$
$f(w^k+\lambda_kp_k)=min_{\lambda\ge0}f(w^k+\lambda{p_k})$
5. $w^{k+1}=w^k+\lambda_kp_k$
6.计算 $g_{k+1}=g(w^{k+1}),小于阈值停止，否则求B_{k+1}$
$B_{k+1}=B_k+\frac{y_ky_k^T}{y_k^T\sigma_k}-\frac{B_k\sigma_k\sigma_k^TB_k}{\sigma_k^TB_k\sigma_k}$
$y_k=g_{k+1}-g_k,\sigma_k=w^{k+1}-w^k$
7.k=k+1,从3重复