第6章--逻辑斯蒂回归与最大熵模型---(6)

最新推荐文章于 2024-04-25 16:07:30 发布

翔燕

最新推荐文章于 2024-04-25 16:07:30 发布

阅读量164

点赞数

分类专栏：李航统计学习方法文章标签：逻辑斯蒂回归模型最大熵模型

本文链接：https://blog.csdn.net/qq_36217665/article/details/100862512

版权

李航统计学习方法专栏收录该内容

8 篇文章

订阅专栏

1.逻辑斯谛回归模型概述

属于对数线性模型
采用对数似然函数极大化为优化目标
模型学习一般采用极大似然估计,或正则化的极大似然估计
通常采用梯度下降和拟牛顿法学习参数
学习方法有改进的迭代尺度法、梯度下降法、拟牛顿法
模型在输入很大和很小的时候出现梯度趋于0 的情况
可以形式化为无约束最优化问题

（1）逻辑斯谛分布

分布函数属于逻辑斯谛函数
分布函数是S型曲线，关于点 $（\mu,\frac12）$ 中心对称，即 $F(-x+\mu)-\frac12=-F(x+\mu)+\frac12$
分布函数在中心附近斜率很大，两端斜率很小
分布函数为： $F(x)=P(X\leq x)=\frac{1}{1+e^{{(x-\mu)}/\gamma}}$
密度函数为： $f(x)=F^{\prime}(x)=\frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^2}$

（2）二项逻辑斯谛回归模型

是分类模型
y值取0，1
用监督学习的方法估计模型参数
事件几率（odds）：该事件发生与不发生的概率比， $odds=\frac{p}{1-p}$
对数几率（log odds）/logit函数是： $(p)=\log\frac p{1-p}$
逻辑斯谛回归模型的对数几率为： $\log\frac{P(Y=1|x)}{1-P(Y=1|x)}=w\cdot x$
条件概率分布： $P(Y=1|x)=\frac{\exp(w\cdot x+b)}{1+\exp(w\cdot x+b)}$ , $P(Y=0|x)=\frac{1}{1+\exp(w\cdot x+b)}$

（3）多项式逻辑斯谛回归

用于多分类问题
模型： $P(Y=k|x)=\frac{\exp(w_k\cdot x)}{1+\sum_{k=1}^{K-1}\exp(w_k\cdot x)},k=1,2,...,K-1\quad P(Y=K|x)=\frac{1}{1+\sum_{k=1}^{K-1}\exp(w_k\cdot x)}$

2.最大熵模型（maximum entropy model）

属于对数线性模型
可以用于二类或多类分类
模型学习就是对模型进行极大似然估计,或正则化的极大似然估计
最大熵模型认为：熵最大的模型是最好的模型（熵是不确定性的度量，熵越大不确定性越大）
$H(P)=-\sum_x P(x)\log P(x),$ 且满足 $0\leq H(P)\leq \log|X|$ ，当X是均匀分布时 $H(P)=\log|X|$
均匀分布时，熵最大
满足约束条件的情况下，没有更多信息的情况是等可能的
可以形式化为无约束最优化问题
对偶函数的极大化等价于最大熵模型的极大似然估计
最大熵模型的学习问题转换成具体求解对数似然函数极大化或对偶函数极大化的问题。

（1）模型

$P_{w}(y | x)=\frac{1}{Z_{w}(x)} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)$ $Z_{w}(x)=\sum_{y} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)$ 其中， $Z_w(x)$ 是规范化因子， $f_i$ 为特征函数， $w_i$ 为特征的权值, $P_w=P_w(y|x)$ 就是最大熵模型

（2）对数似然函数

$L(w)=\sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^nw_if_i(x,y)-\sum_x\tilde{P}(x)\log Z_w(x)$

3.最大熵模型的约束最优化问题

$\min -H(P)=\sum_{x, y} \tilde{P}(x) P(y | x) \log P(y | x)$

$\quad P\left(f_{i}\right)-\tilde{P}\left(f_{i}\right)=0, \quad i=1,2, \cdots, n$

$\sum_{y} P(y | x)=1$

4.模型学习的最优化算法

（1）改进的迭代尺度法(IIS)

是一种最大熵模型学习的最优化算法
思想：假设最大熵模型当前的参数向量 $w=(w_1,w_2,...,w_n)^T$ ，希望找到一个新的参数向量 $w+\delta=(w_1+\delta_1,w_2+\delta_2,...,w_n+\delta_n)^T$ 使得模型的对数似然函数值增大，直到找到最大值。
由于 $\delta$ 是一个向量，有多个变量，IIS每次只优化一个值，其他的保持不变

（2）改进的迭代尺度算法（IIS）

输入：特征函数 $f_1,f_2,...,f_n$ ；经验分布 $\tilde{P}(X,Y)$ ，模型 $P_w(y|x)$
输出：最优参数值 $w_i^*$ ；最优模型 $P_{w^*}$
计算过程：
1）对所有 $i\in\lbrace 1,2,...,n\rbrace,$ 取初值 $w_i=0$ ；（即参数初始化，代码实现的时候是w=np.zeros(n)）
2）对每个 $i\in\lbrace 1,2,...,n\rbrace$ ：
$\quad$ （a）令 $\delta_i$ 是方程 $\sum_{x,y}\tilde{P}(x)P(y|x)f_i(x,y)\exp(\delta_i\sum_{i=1}^nf_i(x,y))=E_{\tilde{P}(f_i)}$ 的解
$\quad$ （b）更新 $w_i$ ， $w_i :=w_i+\delta_i$
3）如果不是所有 $w_i$ 都收敛，则重复步骤2）

（3）最大熵模型学习的BFGS算法—拟牛顿算法

输入：特征函数 $f_1,f_2,...,f_n$ ；经验分布 $\tilde{P}(x,y)$ ，目标函数 $f (x)$ ，梯度 $g(w)=\nabla f(w)$ ，精度要求 $\varepsilon$
输出：最优参数值 $w^*$ ；最优模型 $P_{w^*}(y|x)$
计算过程：
1）选定初始点 $w^{(0)}$ ，取 $B_0$ 为正定对称矩阵，置 $k = 0$
2）计算 $g_k=g(w^{(k)})$ 。若 $||g_k||<\varepsilon$ ，停止计算，得到 $w^*=w^{(k)}$ ，否则转3）
3）由 $B_kp_k=-g_k$ 求出 $p_k$
4）一维搜索：求 $\lambda_k$ 使得 $f(w^{(k)}+\lambda_kp_k)=min_{\lambda\geq0}f(w^{(k)}+\lambda p_k)$
5）置 $w^{(k+1)}=w^{(k)}+\lambda_kp_k$
6）计算 $g_{k+1}=g(w^{(k+1)})$ ，若 $||g_{k+1}||<\varepsilon$ ，停止计算，得到 $w^*=w^{(k+1)}$ ；否则按 $B_{k+1}=B_k+\frac{y_ky_k^T}{y_k^T\delta_k}-\frac{B_k\delta_k\delta_k^TB_k}{\delta_k^TB_k\delta_k},\quad \quad y_k=g_{k+1}-g_k,\quad \delta_k=w^{(k+1)-w^{(k)}}$ 求出 $B_{k+1}$
7）置 $k = k + 1$ ，转3）

5.代码实现

#导包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

#创建数据
iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['label'] = iris.target
df.columns = ['sepal length', 'sepal width', 'petal length', 'petal width', 'label']
data = np.array(df.iloc[:100, [0,1,-1]])
# print(data)
X, y = data[:,:2], data[:,-1]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

#训练模型
clf = LogisticRegression(max_iter=200)
clf.fit(X_train, y_train)

print(clf.score(X_train, y_train))		    # 1.0
print(clf.score(X_test, y_test))			# 0.9666666666666667
print(clf.coef_, clf.intercept_)			# [[ 1.95863181 -3.29617229]] [-0.34560291]

#绘图观察分类情况
x_ponits = np.arange(4, 8)
y_ = -(clf.coef_[0][0]*x_ponits + clf.intercept_)/clf.coef_[0][1]
plt.plot(x_ponits, y_)
plt.plot(X[:50, 0], X[:50, 1], 'bo', color='blue', label='0')
plt.plot(X[50:, 0], X[50:, 1], 'bo', color='orange', label='1')
plt.xlabel('sepal length')
plt.ylabel('sepal width')
plt.legend()

最终结果：
在这里插入图片描述