从HMM到BiLSTM-CRF过程详解（1）

最新推荐文章于 2024-02-09 10:36:47 发布

hyhpyx

最新推荐文章于 2024-02-09 10:36:47 发布

阅读量1.5k

点赞数 2

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/hyhpyx/article/details/121889887

版权

背景知识

本小节主要对推导过程中存在的一些背景知识进行简要介绍，大家可以按照自己的情况进行阅读，有错误之处还请指出，谢谢啦~

1.1 逻辑回归与最大熵模型

1.1.1 多分类逻辑回归模型与softmax函数

1.1.1.1.1 多分类逻辑回归函数

对于二分类逻辑回归函数想必大家肯定都很熟悉啦，我们在此简单回顾一下!逻辑回归模型如下：
$\frac{e^{w \cdot x}}{1+e^{w \cdot x}}=\frac{1}{1+e^{-w \cdot x}}$
其中， $w = (w^{(1)},w^{(2)},...,w^{(n)},b)^{T}$ ， $x = (x^{(1)},x^{(2)},...,x^{(n)},1)^{T}$ 。
一个事件发生的几率指该事件发生的概率与不发生的概率的比值。如果事件发生的概率是 $p$ ，那么该事件的几率是 $\frac{p}{1-p}$ 。对于逻辑回归而言，有下式成立， $log\frac{p}{1-p}=w \cdot x$
那么针对多分类问题逻辑回归该如何使用呢？我们可以将 $K$ 分类问题可以分别构建二分类模型进行。令 $P (Y = i ∣ x)$ 为给定 $x$ 取值下 $Y$ 取值为 $i$ 的概率。显然有 $\displaystyle \sum_{i=1}^{K}P(Y=i|x)=1$ 。将 $Y$ 最后一个取值类别或占比最大的类别作为基线类别，将每个类别与基线类别进行配对构建逻辑回归模型。假设将 $Y = K$ 设为基线类别，构建模型如下：
$log\frac{P(Y=i|x)}{P(Y=K|x)}=w_i \cdot x$
令 $P (Y = i ∣ x) = P (Y = i)$ 。所以有如下式子成立：
$e^{w_1\cdot x} \times P(Y=K)$ $e^{w_2\cdot x} \times P(Y=K)$ $\vdots$ $e^{w_K-1\cdot x} \times P(Y=K)$
因此，有 $\displaystyle \sum_{i=0}^{K-1}e^{w_i \cdot x} \times P(Y=K)$ ，所以 $P(Y=K)=\frac{1}{1+\displaystyle \sum_{i=0}^{K-1}e^{w_i \cdot x}}$ 。则有下式成立：
$\frac{e^{w_i \cdot x}}{1+\displaystyle \sum_{i=0}^{K-1}e^{w_i \cdot x}},i = 1,2,....,K-1$

1.1.1.1.2 softmax

如果我们将其看做一个对数线性模型，那么则有
$w_1 \cdot x -logZ$ $w_2 \cdot x -logZ$ $\vdots$ $w_K \cdot x -logZ$
这里用一个额外项 $- l o g Z$ 来确保所有概率能够形成一个概率分布，从而使得这些概率的和等于1。然后将等式两边的进行指数化，我们可以得到以下公式：
$P(Y=1|x)=\frac{e^{w_1 \cdot x}}{Z}$ $P(Y=2|x)=\frac{e^{w_2 \cdot x}}{Z}$ $\vdots$ $P(Y=K|x)=\frac{e^{w_K \cdot x}}{Z}$
则可以得到 $Z=\displaystyle \sum_{i=1}^{K}e^{w_i \cdot x}$ ，则 $P(Y=i|x)=\frac{e^{w_i \cdot x}}{\displaystyle \sum_{i=1}^{K}e^{w_i \cdot x}}$
上式即为我们熟悉的softmax公式。这个函数能够将 $x_1,x_2,...,x_n$ 之间的差别放大，当存在一个 $x_k$ 比所有值中的最大值要小很多的话，那么它对应的softmax函数值就会趋于0。相反，当 $x_k$ 是最大值的时候，除非第二大的值跟它很接近，否则的话softmax会趋于1。

1.1.2 最大熵原理与最大熵模型

1.1.2.1 最大熵原理

熵在机器学习中很常见，如交叉熵、信息熵和相对熵（KL散度）等，在最大熵模型中我们所说的熵指的是信息熵。
最大熵原理是概率模型学习的一个准则。最大熵原理认为，学习概率模型时，在所有可能的概率模型中，熵最大的模型是最好的模型。
假设离散随机变量 $X$ 的概率分布是 $P (X)$ ，其信息熵为 $H(P)=-\displaystyle \sum_{x}P(x)logP(x)$ ，熵满足下列不等式： $0\leq H(P)\leq log|X|$ 式中， $∣ X ∣$ 是 $X$ 的取值个数，当且仅当 $X$ 的分布是均匀分布时右边的等号成立，即当 $X$ 服从均匀分布时，熵最大。
最大熵原理选择的概率模型首先必须要满足已有的事实（约束条件），在没有更多信息的情况下，那些不确定的部分是“等可能的”。
例：假设随机变量 $X$ 有5个取值 ${A,B,C,D,E\}$ ，要估计取各个值的概率 $P (A), P (B), P (C), P (D), P (E)$ 。从先验知识中，我们了解到一些信息，如下：
$P(A)+P(B)=\frac{3}{10}$ $P (A) + P (B) + P (C) + P (D) + P (E) = 1$
解：在缺少其他信息的情况下，可以认为 $A$ 和 $B$ 是等概率的， $C$ ， $D$ ， $E$ 是等概率的，于是
$P(A)=P(A)=\frac{3}{20}$ $P(C)=P(D)=P(E)=\frac{7}{30}$

1.1.2.2 最大熵模型

给定一个训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$
学习的目标是用最大熵原理选择最好的分类模型。
在给定训练集时，我们可以确定联合分布 $P (X, Y)$ 和边缘分布 $P (X)$ 的经验分布，分别以 $\widetilde{P}(X,Y)$ 和 $\widetilde{P}(X)$ 表示，如下：
$\widetilde{P}(X=x,Y=y)=\frac{v(X=x,Y=y)}{N}$ $\widetilde{P}(X=x)=\frac{v(X=x)}{N}$
其中， $v (X = x, Y = y)$ 表示训练样本中样本 $(x, y)$ 出现的频数， $v (X = x)$ 表示训练数据中 $x$ 出现的瓶数。用特征函数 $f (x, y)$ 描述输入 $x$ 和输出 $y$ 之间的某一个事实。其定义为
$f(x,y)=\left\{ \begin{aligned} &1，x与y满足某一事实\\ &0，否则 \end{aligned} \right.$
特征函数 $f (x, y)$ 关于经验分布 $\widetilde{P}(X,Y)$ 的期望值用 $E_{\widetilde{P}}(f)$ 表示，则有
$E_{\widetilde{P}}(f)=\displaystyle \sum_{x,y}\widetilde{P}(X,Y)f(x,y)$
特征函数 $f (x, y)$ 关于经验分布 $P (Y ∣ X)$ （这是我们想要学习到的）与经验分布 $\widetilde{P}(X)$ 的期望值用 $E_{{P}}(f)$ 表示，则有
$E_{{P}}(f)=\displaystyle \sum_{x,y}\widetilde{P}(X)P(x,y)f(x,y)$ ，如果模型学到训练数据中的信息，那就可以假设两个期望值相等，即
$\displaystyle \sum_{x,y}\widetilde{P}(X)P(x,y)f(x,y)=\displaystyle \sum_{x,y}\widetilde{P}(X,Y)f(x,y) \tag{1}$
我们将公式(1)作为模型学习的约束条件，假如有 $n$ 个特征函数 $f_i(x,y),i=1,2,...,n$ ，那么就有n个约束条件。
条件熵：已知 $X$ 的条件下， $Y$ 的条件概率的分布的信息熵对 $X$ 的数学期望，已知随机变量X的条件下随机变量Y的不确定性。
$H(Y|X)=-\displaystyle \sum_{x\in X}P(x) \sum_{y\in Y}P(y|x)logP(y|x)$

最大熵模型：假设满足所有约束条件的模型 $P (Y ∣ X)$ 集合为
$C\equiv\{P(Y|X)|E_{{P}}(f_i)=E_{\widetilde{P}}(f), i = 1,2,...,n\}$
定义在条件概率分布 $P (Y ∣ X)$ 上的条件熵为
$H(P)=-\displaystyle \sum_{x\in X}\widetilde{P}(x) \sum_{y\in Y}P(y|x)logP(y|x)$
则模型集合 $C$ 中条件熵 $H (P)$ 最大的模型成为最大熵模型( $P$ 指 $P (Y ∣ X)$ )。

1.1.2.3 最大熵模型的学习

最大熵模型的学习等价于约束最优化问题：
$\max_{P\in C} H(P)=-\displaystyle \sum_{x\in X}\widetilde{P}(x) \sum_{y\in Y}P(y|x)logP(y|x)$ $\quad E_{{P}}(f_i)=E_{\widetilde{P}}(f), i = 1,2,...,n$ $\displaystyle \sum_{y}P(y|x)=1$
引入拉格朗日乘子 $w_0,w_1,w_2,...,w_n$ ，定义拉格朗日函数 $L (P, w)$ :
$L(P,w)=-H(p)+w_0(1-\displaystyle \sum_{y}P(y|x))+\displaystyle \sum_{i=1}^{n}w_i(E_{\widetilde{P}}(f)-E_{{P}}(f_i))$ 最后解得结果如下：
$P_w(y|x)=\frac{1}{Z_w(x)}exp(\displaystyle \sum_{i=1}^{n}w_if(x,y))$
其中，
$Z_w(x) = \displaystyle \sum_{y}exp(\displaystyle \sum_{i=1}^{n}w_if(x,y))$
$P_w(y|x)$ 就是最大熵模型， $w$ 是最大熵模型中的参数向量，即需要求解的参数。
最大熵模型与逻辑回归模型有类似的形式，他们又称为对数线性模型(log linear model)。模型求解就是在给定训练数据条件下对模型进行极大似然估计，即求解参数 $w$ 。
逻辑回归即是最大熵模型的特殊形式，转换过程如下图所示：
在这里插入图片描述

1.2 EM(expectation–maximization)算法

在HMM中，我们需要根据观测序列 $X$ 求出隐藏序列 $Z$ ，但是若参数 $\theta$ 未知，我们就无法求得隐藏序列 $Z$ ，同理，若我们不知道 $Z$ 的信息，则无法推断出 $\theta$ 的信息，这就成了一个鸡生蛋、蛋生鸡的问题。此时，EM算法就可以大展身手了！！！！

1.2.1 EM算法背景知识

Jensen不等式
设 $f (x)$ 是定义域为实数的函数，如果对所有实数 $x$ ， $f (x)$ 的二阶导数恒大于等于0，那么 $f (x)$ 为凸函数。如果 $f (x)$ 为凸函数， $X$ 为随机变量，那么Jensen不等式表达如下：
$E[f(X)]\geq f(E[X])$
证明如下：
在这里插入图片描述

1.2.2 过程推导

问题
假如我们需要调查学校的男生和女生的身高分布，我们抽取100个男生和100个女生，将他们按照性别划分为两组。然后，统计抽样得到100个男生的身高数据和100个女生的身高数据。如果我们知道他们的身高服从正态分布，但是男生和女士身高分布的均值 $\mu$ 和方差 $\sigma^2$ 是不知道的，这4个参数就是我们需要估计的。但是我们不知道这200个数据中哪个是男生的身高，哪个是女生的身高，即抽取得到的每个样本都不知道是从哪个分布中抽取的。这个时候，对于每个样本，就有两个未知量需要估计：

（1）这个身高数据是来自于男生数据集合还是来自于女生？

（2）男生、女生身高数据集的正态分布的参数分别是多少？

EM算法求解步骤
（1）初始化参数：先初始化男生和女生身高的正态分布的参数；

（2）计算每一个人更可能属于男生分布或者女生分布；

（3）通过分为男生的n个人来重新估计男生身高分布的参数（最大似然估计），女生分布也按照相同的方式估计出来，更新分布。

（4）这时候每个样本属于这两个分布的概率也变了，然后重复步骤（1）至（3），直到参数不发生变化为止。

数据集
$m$ 个相互独立的样本： $X = (x^{(1)},..., x^{(m)})$ ，如200人的身高的序列。
隐含变量：未观测到的随机变量Z的值： $Z = (z^{(1)},..., z^{(m)})$ ，如性别序列， ${男，男，女，....,男\}$ 。
完整数据：包含观测到的随机变量 $X$ 和隐含变量 $Z$ 的数据： $Y = (X, Z)$

以下为公式推导部分：
将极大似然估计改写为：
$\begin{aligned}L(\theta)&=\displaystyle \sum_{i}lnP(x^{(i)};\theta)\\ &=\displaystyle\sum_{i=1}^{m}ln\displaystyle\sum_{Z^{(i)}}P(x^{(i)},Z^{(i)};\theta)\\ &=\displaystyle\sum_{i=1}^{m}ln\displaystyle\sum_{Z^{(i)}}Q_i(z^{(i)})\frac{P(x^{(i)},Z^{(i)};\theta)}{Q_i(z^{(i)})}\\ &\geq\displaystyle\sum_{i=1}^{m}\displaystyle\sum_{Z^{(i)}}Q_i(z^{(i)})ln\frac{P(x^{(i)},Z^{(i)};\theta)}{Q_i(z^{(i)})} \end{aligned}$
$Q_i(z^{(i)})$ 是新引入的分布，可以理解为每个样本 $i$ 为 $z^{(i)}$ 的概率，在上述例子中， $z^{(i)}$ 的取值范围为 ${男，女\}$ ，所以有 $\displaystyle\sum_{Z^{(i)}}Q_i(z^{(i)})=1$ ，最后一步推导是利用Jensen不等式，由于 $l n$ 是凹函数，所以有 $E[f(X)]\leq f(E[X])$ 成立。
等式成立的条件：所以我们想要最大化 $L(\theta)$ ，当等号成立时，我们去优化下界就可以了。根据Jense不等式，当随机变量是常数时，等号成立，所以有
$\frac{P(x^{(i)},Z^{(i)};\theta)}{Q_i(z^{(i)})}=C \tag2$ $P(x^{(i)},Z^{(i)};\theta)=C\big(Q_i(z^{(i)})\big)$ $\displaystyle\sum_{Z^{(i)}}P(x^{(i)},Z^{(i)};\theta)=C\big(\displaystyle\sum_{Z^{(i)}}Q_i(z^{(i)})\big)$ $\displaystyle\sum_{Z^{(i)}}P(x^{(i)},Z^{(i)};\theta)=C$

将 $C$ 代回式 $(2)$ ，可得
$\begin{aligned} Q_i(z^{(i)})&=\frac{P(x^{(i)},Z^{(i)};\theta)}{\displaystyle\sum_{Z^{(i)}}P(x^{(i)},Z^{(i)};\theta)}\\ &=\frac{P(x^{(i)},Z^{(i)};\theta)}{P(x^{(i)};\theta)}\\ &=P(Z^{(i)}|x^{(i)},\theta) \end{aligned}$
至此，EM算法的推导就结束了，现在我们看看怎么使用EM算法!!!

输入：观察数据 $X = (x^{(1)},..., x^{(m)})$ ，联合分布 $P(X,Z|\theta)$ ，条件分布 $P(Z|X,\theta)$ ，极大迭代次数 $J$ 。

(1) 随机初始化模型参数 $\theta$ 的初值 $\theta^0$ ;
(2) $F o r$ $j$ $f r o m$ $1$ $t o$ $J$ :
$E$ 步：计算联合分布的条件概率期望：
$Q_i(z^{(i)})=P(Z^{(i)}|x^{(i)},\theta)$
M步：极大化 $L(\theta)$ （将加号从 $l n$ 中取出，方便以后求导），也就是优化其下界，得到 $\theta$ ：
$\theta=arg\max_{\theta}\displaystyle\sum_{i=1}^{m}\displaystyle\sum_{Z^{(i)}}Q_i(z^{(i)})ln\frac{P(x^{(i)},Z^{(i)};\theta)}{Q_i(z^{(i)})}$
重复 $E$ 步和 $M$ 步，直到参数收敛，最终输出参数和隐藏变量。

1.3 有向图和无向图

1.3.1 有向图

在这里插入图片描述
此图即为一个有向图，其满足马尔科夫假设，即马尔科夫链里的 $x_i$ 总是只受 $x_{i-1}$ 一个人的影响。其概率计算公式为
$P(x_1,x_2,x_3,x_4,x_5)=P(x_1)\cdot P(x_2 | x_1)\cdot P(x_3|x_2)\cdot P(x_4|x_2)\cdot P(x_1)\cdot P(x_1)$

1.3.2 无向图

马尔科夫性是是保证或者判断概率图是否为概率无向图的条件。主要包括三种，分别是

成对马尔科夫性
局部马尔科夫性
全局马尔科夫性
具体可参考《统计学习方法》，满足任意一种即为无向图。

此图即为一个无向图，如果一个图太大，可以用因子分解将 $P(x_1,x_2,x_3,x_4)$ 写为若干个所有最大团概率的乘积。公式如下：
$P(Y)=\frac{1}{Z(x)}\displaystyle \prod_{c}\psi_c(Y_c)$ $Z(x)=\displaystyle \sum_{Y}\displaystyle \prod_{c}\psi_c(Y_c)$
以上图为例，其公式为
$P(Y)=\frac{1}{Z(x)}\psi_1(x_1,x_3,x_4)\cdot \psi_2(x_2,x_3,x_4)$
$Z (x)$ 是在这4个点将 $x_1,x_2,x_3,x_4$ 任意放置的所有可能求和。

1.3 生成式和判别式模型

1、判别式模型的特征总结如下：

对 $P (Y ∣ X)$ 建模
对所有的样本只构建一个模型，确认总体判别边界
观测到输入什么特征，就预测最可能的label
另外，判别式的优点是：对数据量要求没生成式的严格，速度也会快，小数据量下准确率也会好些。

2、生成式模型
在模型训练中，我学习到的是X与Y的联合模型 $P (Y ∣ X)$ ，也就是说，我在训练阶段是只对 $P (Y ∣ X)$ 建模，我需要确定维护这个联合概率分布的所有的信息参数。完了之后在inference再对新的sample计算 $P (Y ∣ X)$ ，导出 $Y$ ,但这已经不属于建模阶段了。