《统计学习方法》第六章: 逻辑斯蒂回归与最大熵模型读书笔记

最新推荐文章于 2021-10-27 10:09:04 发布

ErinLiu虎哥的铲屎员

最新推荐文章于 2021-10-27 10:09:04 发布

阅读量305

点赞数

分类专栏：《统计学习方法》-李航文章标签：统计学习方法

本文链接：https://blog.csdn.net/liuerin/article/details/89434909

版权

《统计学习方法》-李航专栏收录该内容

10 篇文章 0 订阅

订阅专栏

第六章

- - - 6.逻辑斯蒂回归(logistic regression)与最大熵模型(maximum entropy model)

一切为了数据挖掘的准备

6.逻辑斯蒂回归(logistic regression)与最大熵模型(maximum entropy model)

两个模型都是概率模型。在分类模型中，计算P(Y|X)
两个模型都属于对数线性模型
- 在logistic regression中, $\log P(Y|X) = wx$ 。如果Y是多分类，不同的Y值对应不同的w参数值；属于判别模型。
- 在最大熵模型中， $\log P(Y|X) = wf(x),$ 关于x的函数的线性函数，属于生成模型（即需要找到P(Y|X)和样本中X的经验分布 $\tilde{P}(X)$ ）。

6.1二项逻辑斯蒂回归模型

逻辑斯蒂回归模型是一种分类模型，由条件概率分布 $P (Y ∣ X)$ 表示。回归会比较不同y值的条件概率值的大小，把概率值大的类型作为预测结果。

6.1.1 二项逻辑斯蒂回归模型的数学表示

$\begin{aligned} P(Y=1|X)=\frac{exp(w\cdot x+b)}{1+exp(w\cdot x+b)} \\ P(Y=0|X)=\frac{1}{1+exp(w\cdot x+b)} \end{aligned}$

其中 $\in R^n,b \in R$ 是参数，w为权值向量，b是偏置，wx是w和x的内积。

或表示为:
$\begin{aligned} P(Y=1|X)=\frac{exp(w\cdot x)}{1+exp(w\cdot x)} \\ P(Y=0|X)=\frac{1}{1+exp(w\cdot x)} \end{aligned}$

其中 $w^{(1)},w^{(1)},\cdots,w^{(n)},b), x=(x^{(1)}, x^{(2)},\cdots, x^{(n)}, 1)$

6.1.2 logistic regression数学表达的一种解释

假设 $P(Y=1|X)=\pi(x)$ ，则 $\pi(x)$ 取值范围为[0,1].我们希望用线性表达式 $w\cdot x$ 来表示概率分布。
对 $\pi(x)$ 做logit变换
$logit(\pi(x))=log\frac{\pi(x)}{1-\pi(x)}=w\cdot x$

将取值范围为[0,1]的 $\pi(x)$ 函数，变换为取值范围为 $[-\infty,+\infty]$ 的 $w\cdot x$ 线性函数

得到
$P(Y=1|X)=\pi(x)=\frac{exp(w\cdot x)}{1+exp(w\cdot x)}$
线性函数值越接近 $+\infty$ ，概率值越接近1；线性函数值越接近 $-\infty$ ，概率值越接近0

6.1.3 模型参数估计

最大似然估计：
$x_i\in R^n,y_i\in\{0,1\},P(Y=1|X)=\pi(x),P(Y=0|X)=1-\pi(x)$
$\begin{aligned} l(w) & = \prod_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i} \\ L(w)& =\sum_{i=1}^N[y_ilog\pi(x_i)+(1-y_i)log(1-\pi(x_i))] \\ &=\sum_{i=1}^N[y_ilog \frac{\pi(x_i)}{1-\pi(x_i)} + log(1-\pi(x_i))] \\ &=\sum_{i=1}^N[y_i(w\cdot x_i)-log(1+exp(w\cdot x_i))] \end{aligned}$

6.1.4采用梯度上升法对目标函数最优化

找函数最大值，朝梯度下降的反方向变化 $w^\prime \leftarrow w + \eta \nabla L(w)$
$\begin{aligned} L(w) & =\sum_{i=1}^N[y_i(w\cdot x_i)-log(1+exp(w\cdot x_i))]\\ &=\sum_{i=1}^N[y_i(w^T x_i)-log(1+exp(w^Tx_i))] \\ \frac{\partial L(w)}{\partial w} &= \sum_{i=1}^N[y_ix_i-\frac{exp(w^Tx_i)}{1+exp(w^Tx_i)}x_i] \\ &=\sum_{i=1}^N(y_i - sigmoid(w^Tx_i))x_i \end{aligned}$
其中N为总样本数， $x_i$ 是某样本的输入向量,w是与x同型的向量。

6.2多项逻辑斯蒂回归

6.2.1数学表示

假设随机变量Y的取值集合 $\in \{1,2,\cdots,K\}$
$\begin{aligned} P(Y=i|X)=\frac{exp(w_i\cdot x)}{1+\sum_{k=1}^{K-1}exp(w_k\cdot x)},&\quad i=1,2,\cdots,K-1 \\ P(Y=K|X)=\frac{1}{1+\sum_{k=1}^{K-1}exp(w_k\cdot x)} \end{aligned}$

6.2.2 多项逻辑斯蒂回归数学表达的一种解释

$logit(P(Y=i|X))=log\frac{P(Y=i|X)}{P(Y=K|X)}=log\frac{P(Y=i|X)}{1-\sum_{k=1}^{K-1}P(Y=k|X)}=w_i\cdot x,\quad i=1,2,\cdots,K-1$
其中 $w_i$ 是Y取值i时的权重。

推导
$\begin{aligned} P(Y=i|X) & = exp(w_i\cdot x)P(Y=K|X) ,\quad i=1,2,\cdots,K-1\\ \sum_{i=1}^{K-1}P(Y=i|X) +P(Y=K|X)& = P(Y=K|X)\sum_{i=1}^{K-1}exp(w_i\cdot x) +P(Y=K|X)=1\\ P(Y=K|X) &=\frac{1}{1+\sum_{i=1}^{K-1}exp(w_i\cdot x)} \\ P(Y=i|X) &= \frac{ exp(w_i\cdot x)}{1+\sum_{i=1}^{K-1}exp(w_i\cdot x)},\quad i=1,2,\cdots,K-1 \end{aligned}$

6.3最大熵模型

在自然语言处理中常用

6.3.1最大熵原理

最大熵原理：在学习概率模型时，在所有可能的概率模型中，熵最大的模型是最好的模型。
通常在满足约束条件的模型集合中选取熵最大的模型。即我们在满足已有事实的条件下，认为在没有更多信息的情况时，不确定的部分概率平均，等可能；此时数据最混乱，熵最大。
熵的计算：
$-\sum P(y)logP(y)$
当Y分布是均匀分布时，熵最大,且 $H (P) = l o g K$ ,K是Y的取值个数

6.3.2最大熵模型的约束

先考虑模型应满足的条件：给定训练集，可以确定联合分布P(X,Y)和边缘分布P(X)的经验分布
$\begin{aligned} \tilde{P}(X=x,Y=y) &= \frac{v(X=x,Y=y)}{N} \\ \tilde{P}(X=x) &= \frac{v(X=x)}{N} \end{aligned}$

其中 $v ()$ 表示训练样本中该条件出现的频数。

特征函数f(x,y)描述输入x和输出y之间的某个事实。
$f(x,y)=\begin{cases} 1, & \text{x与y满足一事实} \\ 0, & \text{否则}\end{cases}$
举例：单词’take’有许多意思，这些词义的集合构成Y的取值范围，另外有很多句子，构成输入变量X。那么“y=‘乘坐’，且在句子中’take’的后面有个’bus’单词“这个条件就可以构成一个特征函数。
特征函数f(x,y)基于经验分布 $\tilde{P}(x,y)$ 的期望
$E_{\tilde{P}}(f)=\sum_{x,y}\tilde{P}(x,y)f(x,y)$
特征函数f(x,y)关于模型P(Y|X)与经验分布 $\tilde{P}(X)$ 的期望值
$E_P(f)=\sum_{x,y}\tilde{P}(x)P(y|x)f(x,y)$
用样本集特征函数代表的信息的概率估计总体特征函数的概率，即 $\sum_{x,y}\tilde{P}(x)P(y|x)f(x,y) = \sum_{x,y}\tilde{P}(x,y)f(x,y)$ 。将其作为约束条件。
如果有n个特征函数，就有n个约束条件。

6.3.3最大熵模型

设满足所有约束条件的模型集合为
$\equiv \{|E_{\tilde{P}}(f_i)=E_P(f_i),i=1,2,\cdots,n\}$
C就是可行域
在条件概率分布P(Y|X)的条件熵为
$H(P)=-\sum_{x,y}\tilde{P}(x)P(y|x)logP(y|x)$
满足约束条件，且条件熵最大的模型为目标最大熵模型。

6.3.4最大熵模型的学习(优化问题求解)

原始问题
$\begin{aligned} \max_{P \in C} \quad &H(P)=-\sum_{x,y}\tilde{P}(x)P(Y|X)logP(Y|X) \\ s.t. \quad &E_{\tilde{P}}(f_i)=E_P(f_i),\quad i=1,2,\cdots,n \\ & \sum_y P(y|x)=1 \end{aligned}$
变形为常见优化问题
$\begin{aligned} \min_{P \in C} \quad &-H(P)=\sum_{x,y}\tilde{P}(x)P(Y|X)logP(Y|X) \\ s.t. \quad &E_{\tilde{P}}(f_i)-E_P(f_i)=0,\quad i=1,2,\cdots,n \\ & 1-\sum_y P(y|x)=0 \end{aligned}$
拉格朗日函数
$L(P,w)=-H(P)+w_0[1-\sum_y P(y|x)] +\sum_{i=1}^nw_i(E_{\tilde{P}}(f_i)-E_P(f_i))$
拉格朗日函数最小最大化问题转化为对偶问题
原始问题：
$\min_{P\in C}\max_wL(P,w)$
对偶问题：
$\max_w\min_{P\in C}L(P,w)$
$- H (P)$ 是凸函数，原始问题与对偶问题强对偶，解等价
证凸函数：
$\begin{aligned} -H(P)&=\sum_{x,y}\tilde{P}(x)P(y|x)logP(y|x)\\ -H^\prime(P)&=\frac{\partial{-H(P)}}{\partial{P(y|x)}} = \sum_{x,y}\tilde{P}(x)[logP(y|x)+1] \\ -H^{\prime\prime}(P)&=\frac{\partial^2{-H(P)}}{\partial^2{P(y|x)}}=\sum_{x,y}\tilde{P}(x)\frac{1}{P(y|x)} >0 \end{aligned}$
计算KKT条件，先对目标函数求最优解,L(P,w)对P(y|x)求解
$\begin{aligned} L(P,w)&=-H(P)+w_0[1-\sum_y P(y|x)] +\sum_{i=1}^nw_i(E_{\tilde{P}}(f_i)-E_P(f_i)) \\ &=\sum_{x,y}\tilde{P}(x)P(y|x)logP(y|x) + w_0[1-\sum_y P(y|x)] + \sum_{i=1}^nw_i[\sum_{x,y}\tilde{P}(x,y)f_i(x,y) - \sum_{x,y}\tilde{P}(x)P(y|x)f_i(x,y)] \\ \frac{\partial{L(P,w)}}{\partial{P(y|x)}} &=\sum_{x,y}\tilde{P}(x)[logP(y|x)+1] - \sum_yw_0 -\sum_{x,y}\tilde{P}(x)\sum_{i=1}^nw_if_i(x,y) \\ &=\sum_{x,y}\tilde{P}(x)[logP(y|x)+1-w_0 - \sum_{i=1}^nw_if_i(x,y)] =0 \\ P(y|x) &=\frac{exp(\sum_{i=1}^nw_if_i(x,y))}{exp(w_0-1)} \end{aligned}$
约束条件 $\sum_y P(y|x)=1$
故 $exp(w_0-1) = \sum_yexp(\sum_{i=1}^nw_if_i(x,y))$
$\begin{aligned} P_w(y|x) &=\frac{1}{Z_w(x)} exp(\sum_{i=1}^n w_i f_i(x,y)) \\ Z_w(x) &=\sum_yexp(\sum_{i=1}^n w_i f_i(x,y)) \end{aligned}$
再KKT条件，在目标函数最优解的基础上，对参数w求最优解
$\begin{aligned} L(P,w)&=\sum_{x,y}\tilde{P}(x)P(y|x)logP(y|x) + \sum_{i=1}^nw_i[\sum_{x,y}\tilde{P}(x,y)f_i(x,y) - \sum_{x,y}\tilde{P}(x)P(y|x)f_i(x,y)] \\ \Psi(w)&=\sum_{x,y}\tilde{P}(x)P_w(y|x)logP_w(y|x) + \sum_{i=1}^nw_i[\sum_{x,y}\tilde{P}(x,y)f_i(x,y) -\sum_{x,y}\tilde{P}(x)P_w(y|x)f_i(x,y)] \\ &=\sum_{x,y}\tilde{P}(x,y)[\sum_{i=1}^nw_if_i(x,y)] + \sum_{x,y}\tilde{P}(x)P_w(y|x)[logP_w(y|x)-\sum_{i=1}^nw_if_i(x,y)] \\ &= \sum_{x,y}\tilde{P}(x,y)[\sum_{i=1}^nw_if_i(x,y)] - \sum_{x,y}\tilde{P}(x)P_w(y|x)logZ_w(x)\\ &= \sum_{x,y}\tilde{P}(x,y)[\sum_{i=1}^nw_if_i(x,y)] - \sum_{x}\tilde{P}(x)logZ_w(x) \end{aligned}$
可以证明此时的 $L (P, w)$ 等价于最大熵模型（即对拉格朗日求极值时求得的目标函数 $P_w(y|x)$ ）的极大似然估计。 $L(P_w)=log\prod_{x,y}P_w(y|x)^{\tilde{p}(x,y)}$ 。即最大熵模型中的对偶函数极大化等价于极大似然估计

6.4学习中的最优化算法

二值逻辑斯蒂回归最终学习目标：
$\max L(w) =\sum_{i=1}^N[y_i(w\cdot x_i)-log(1+exp(w\cdot x_i))]$
最大熵模型最终学习目标：
$\max \Psi(w) = \sum_{x,y}\tilde{P}(x,y)[\sum_{i=1}^nw_if_i(x,y)] - \sum_{x}\tilde{P}(x)logZ_w(x)$

6.4.1对于最大熵模型，改进的迭代尺度法

想要迭代w值，假设迭代后 $\leftarrow w+\delta$ ，且学习目标的变化量为
$\Psi(w+\delta)-\Psi(w) = \sum_{x,y}\tilde{P}(x,y)[\sum_{i=1}^n\delta_if_i(x,y)] - \sum_x\tilde{P}(x)log\frac{Z_{w+\delta}(x)}{Z_w(x)}$
求出使变化量最大的 $\delta$
有不等式: $-log\alpha \geqslant1-\alpha,\alpha>0$ ,对原式进行变换
$\begin{aligned} \Psi(w+\delta)-\Psi(w) &\geqslant \sum_{x,y}\tilde{P}(x,y)[\sum_{i=1}^n\delta_if_i(x,y)] + 1 - \sum_x\tilde{P}(x)\frac{Z_{w+\delta}(x)}{Z_w(x)}\\ \frac{Z_{w+\delta}(x)}{Z_w(x)}&= \frac{\sum_yexp(\sum_{i=1}^n (w_i+\delta_i) f_i(x,y))}{Z_w(x)} \\ &=\frac{\sum_yexp(\sum_{i=1}^n w_if_i(x,y)+\sum_{i=1}^n \delta_if_i(x,y))}{Z_w(x)}\\ &=\frac{\sum_yexp(\sum_{i=1}^n w_if_i(x,y))exp(\sum_{i=1}^n \delta_if_i(x,y)}{Z_w(x)}\\ &=\sum_y\frac{exp(\sum_{i=1}^n w_if_i(x,y))}{Z_w(x)}exp(\sum_{i=1}^n \delta_if_i(x,y) \\ &=\sum_yP_w(y|x)exp(\sum_{i=1}^n \delta_if_i(x,y) \\ \Psi(w+\delta)-\Psi(w) &\geqslant \sum_{x,y}\tilde{P}(x,y)[\sum_{i=1}^n\delta_if_i(x,y)] + 1-\sum_x\tilde{P}(x)\sum_yP_w(y|x)exp(\sum_{i=1}^n \delta_if_i(x,y) \\ \text{记} A(\delta|w) &= \sum_{x,y}\tilde{P}(x,y)[\sum_{i=1}^n\delta_if_i(x,y)] + 1-\sum_x\tilde{P}(x)\sum_yP_w(y|x)exp(\sum_{i=1}^n \delta_if_i(x,y)) \end{aligned}$
那么 $A(\delta|w)$ 是原式的下界，求使下界最大的 $\delta$ 解。由于想要用 $A(\delta|w)$ 对 $\delta$ 求导，但式中带有的 $exp(\sum_{i=1}^n \delta_if_i(x,y))$ 求导后仍然存在，因此利用已知不等式对 $A(\delta|w)$ 变换。
对于凸函数 $\psi$ ，有权重 $a_i,\sum a_i=1$ ，则 $\psi(\sum a_ix_i)\leqslant \sum a_i \psi(x_i)$ .对 $A(\delta|w)$ 变换
$\begin{aligned} A(\delta|w) &\geqslant \sum_{x,y}\tilde{P}(x,y)[\sum_{i=1}^n\delta_if_i(x,y)] + 1 - \sum_x\tilde{P}(x)\sum_yP_w(y|x)\sum_{i=1}^n\frac{f_i(x,y)}{\sum_{i=1}^n f_i(x,y)}exp(\delta_i\sum_{i=1}^n f_i(x,y)) \\ \text{另} B(\delta|w) &= \sum_{x,y}\tilde{P}(x,y)[\sum_{i=1}^n\delta_if_i(x,y)] + 1 - \sum_x\tilde{P}(x)\sum_yP_w(y|x)\sum_{i=1}^n\frac{f_i(x,y)}{\sum_{i=1}^n f_i(x,y)}exp(\delta_i\sum_{i=1}^n f_i(x,y)) \\ & \Psi(w+\delta)-\Psi(w) \geqslant B(\delta|w) \end{aligned}$
对新的下界 $B(\delta|w)$ 求偏导
$\begin{aligned} \frac{\partial B(\delta|w)}{\partial \delta_i} = \sum_{x,y}\tilde{P}(x,y)f_i(x,y)-\sum_x\tilde{P}(x)\sum_yP_w(y|x)exp(\delta_i\sum_{i=1}^n f_i(x,y))f_i(x,y)=0 \end{aligned}$
可求到 $\delta_i$
如果 $\delta_i$ 没有显式表达式，可以通过牛顿迭代求得解
若 $g(\delta)=0$ 是方程，通过 $\delta^{(k+1)}=\delta^{(k)}-\frac{g(\delta^{(k)})}{g^\prime(\delta^{(k)})}$ 迭代求 $\delta$ 解

6.5我的logistic实现

import numpy as np
class LogisticRegression:
    def __init__(self,X,Y):
        self.X=X
        self.Y=Y
        self.w=self.training(X,Y)
    
    def training(self,X,Y,n=200,eta=0.01):
        """
        输入X,Y都是list类型，返回w为np.array类型
        输入训练数据，训练数据的分类结果,总迭代次数n,WX =  wx +b
        """
        #将输入变量x的每个数据x=(x0,x1,...,xn,1)
        [x.append(1) for x in X]
        matX = np.mat(X)
        #标签数据Y变为列向量
        matY = np.mat(Y).reshape((len(Y),1))
        #w与输入x同型，列向量
        w = np.ones((matX.shape[1],1))
        matw=np.mat(w)
        #迭代n次，w变化值 eta*(sum[yi-sigmoid(wTxi)]xi)
        for i in range(n):
            matw += eta* matX.T*(matY-self.sigmoid(matX,matw))
        return matw
    
    def sigmoid(self,x,w):
        """
        输入x,w都是np.mat类型
        """
        return 1.0/(1+np.exp(-x*w))
    
    def predict(self,x):
        x.append(1)
        x = np.mat(x)
        p = self.sigmoid(x,self.w)
        if p > 0.5:
            return 1
        else:
            return 0

X=[[3,3,3],[4,3,2],[2,1,2],[1,1,1],[-1,0,1],[2,-2,1]]
Y=[1,1,1,0,0,0]
lr = LogisticRegression(X,Y)
x=[1,2,-2]
lr.predict(x)

ErinLiu虎哥的铲屎员

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
《统计学习方法》第六章: 逻辑斯蒂回归与最大熵模型读书笔记

第六章6.逻辑斯蒂回归(logistic regression)与最大熵模型(maximum entropy model)6.1二项逻辑斯蒂回归模型6.1.1 二项逻辑斯蒂回归模型的数学表示6.1.2 logistic regression数学表达的一种解释6.1.3 模型参数估计6.1.4采用梯度上升法对目标函数最优化6.2多项逻辑斯蒂回归6.2.1数学表示6.2.2 多项逻辑斯蒂回归数学表达的...
复制链接

扫一扫