机器学习算法公益学习打卡第四天

最新推荐文章于 2024-05-07 21:39:47 发布

大⊙ω⊙蒜

最新推荐文章于 2024-05-07 21:39:47 发布

阅读量265

点赞数

分类专栏：公益组队学习文章标签：机器学习

本文链接：https://blog.csdn.net/mashuaiss/article/details/105823487

版权

公益组队学习专栏收录该内容

10 篇文章 1 订阅

订阅专栏

条件随机场

一、马尔可夫过程
- 1.定义
二、隐马尔科夫算法
三、条件随机场（以线性链条件随机场为例）
- 1.定义
- 2.基本问题

一、马尔可夫过程

1.定义

假设一个随机过程中， $t_n$ 时刻的状态 $x_n$ 的条件发布，只与其前一状态 $x_{n-1}$ 相关，即：

$P(x_n|x_1,x_2,...,x_{n-1}) = P(x_n|x_{n-1})$
则将其称为马尔可夫过程。

二、隐马尔科夫算法

1.定义

隐马尔科夫算法是对含有未知参数（隐状态）的马尔可夫链进行建模的生成模型.
在隐马尔科夫模型中，包含隐状态和观察状态，隐状态 $x_i$ 对于观察者而言是不可见的，而观察状态 $y_i$ 对于观察者而言是可见的。隐状态间存在转移概率，隐状态 $x_i$ 到对应的观察状态 $y_i$ 间存在输出概率。

2.假设

假设隐状态 $x_i$ 的状态满足马尔可夫过程，i时刻的状态 $x_i$ 的条件分布，仅与其前一个状态 $x_{i-1}$ 相关，即：
$P(x_i|x_1,x_2,...,x_{i-1}) = P(x_i|x_{i-1})$
假设观测序列中各个状态仅取决于它所对应的隐状态，即：
$P(y_i|x_1,x_2,...,x_{i-1},y_1,y_2,...,y_{i-1},y_{i+1},...) = P(y_i|x_{i})$

3.存在问题

在序列标注问题中，隐状态（标注）不仅和单个观测状态相关，还和观察序列的长度、上下文等信息相关。例如词性标注问题中，一个词被标注为动词还是名词，不仅与它本身以及它前一个词的标注有关，还依赖于上下文中的其他词。

三、条件随机场（以线性链条件随机场为例）

1.定义

给定 $X=(x_1,x_2,...,x_n)$ ， $Y=(y_1,y_2,...,y_n)$ 均为线性链表示的随机变量序列，若在给随机变量序列 X 的条件下，随机变量序列 Y 的条件概率分布 $P (Y ∣ X)$ 构成条件随机场，即满足马尔可夫性：

$P(y_i|x_1,x_2,...,x_{i-1},y_1,y_2,...,y_{i-1},y_{i+1}) = P(y_i|x,y_{i-1},y_{i+1})$
则称为 P(Y|X) 为线性链条件随机场。

通过去除了隐马尔科夫算法中的观测状态相互独立假设，使算法在计算当前隐状态 $x_i$ 时，会考虑整个观测序列，从而获得更高的表达能力，并进行全局归一化解决标注偏置问题。
参数化形式
在这里插入图片描述
其中：

$Z (x)$ 为归一化因子，是在全局范围进行归一化，枚举了整个隐状态序列 $x_{1…n}$ 的全部可能，从而解决了局部归一化带来的标注偏置问题。

$Z(x)=\sum_{y} \exp \left(\sum_{i, k} \lambda_{x} t_{k}\left(y_{i-1}, y_{i}, x, i\right)+\sum_{i, l} \mu_{l} s_{l}\left(y_{i}, x, i\right)\right)$
$t_k$ 为定义在边上的特征函数，转移特征，依赖于前一个和当前位置

$s_1$ 为定义在节点上的特征函数，状态特征，依赖于当前位置。

简化形式
因为条件随机场中同一特征在各个位置都有定义，所以可以对同一个特征在各个位置求和，将局部特征函数转化为一个全局特征函数，这样就可以将条件随机场写成权值向量和特征向量的内积形式，即条件随机场的简化形式。

step 1
将转移特征和状态特征及其权值用统一的符号表示，设有k1个转移特征， $k_2$ 个状态特征， $K=k_1+k_2$ ,记

step 2
对转移与状态特征在各个位置i求和，记作

step 3
将 $\lambda_{x}$ 和 $\mu_{l}$ 用统一的权重表示，记作

step 4
转化后的条件随机场可表示为：

step 5
若 $w$ 表示权重向量：

$w = (w_1,w_2,...,w_K)^T$
以 $F (y, x)$ 表示特征向量，即
则，条件随机场写成内积形式为：
矩阵形式
推导 begin
推导 end

2.基本问题

条件随机场包含概率计算问题、学习问题和预测问题三个问题。

1.概率计算问题：已知模型的所有参数，计算观测序列 $Y$ 出现的概率，常用方法：前向和后向算法；

2.学习问题：已知观测序列 $Y$ ，求解使得该观测序列概率最大的模型参数，包括隐状态序列、隐状态间的转移概率分布和从隐状态到观测状态的概率分布，常用方法：Baum-Wehch 算法；

3.预测问题：一直模型所有参数和观测序列 $Y$ ，计算最可能的隐状态序列 $X$ ,常用算法：维特比算法。

概率计算问题
给定条件随机场 $P (Y ∣ X)$ ，输入序列 $x$ 和输出序列 $y$ ;

计算条件概率

$P(Y_i=y_i|x), P(Y_{i-1} = y_{i-1},Y_i = y_i|x)$
计算相应的数学期望问题；
前向-后向算法
step 1 前向计算
对观测序列 $x$ 的每个位置 $i = 1, 2, . . ., n + 1$ ，定义一个 $m$ 阶矩阵（ $m$ 为标记 $Y_i$ 取值的个数）
对每个指标 $i = 0, 1, . . ., n + 1$ ，定义前向向量 $\alpha_{i}(x)$ ，则递推公式:
其中，
step 2 后向计算
对每个指标 $i = 0, 1, . . ., n + 1$ ，定义前向向量 $\beta_{i}(x)$ ，则递推公式:

step 3

step 4 概率计算
所以，标注序列在位置 $i$ 是标注 $y_i$ 的条件概率为：
其中，

step 5 期望值计算
通过利用前向-后向向量，计算特征函数关于联合概率分布 $P (X, Y)$ 和条件概率分布 $P (Y ∣ X)$ 的数学期望，即特征函数 $f_k$ 关于条件概率分布 $P (Y ∣ X)$ 的数学期望：

学习问题

这里主要介绍一下 BFGS 算法的思路。
输入：特征函数 $f_1,f_2,...,f_n$ ：经验分布 $\widetilde{P}(X,Y)$ ；
输出：最优参数值 $\widehat{w}$ ，最优模型 $P_{\widehat{w}}(y|x)$ 。

1.选定初始点 w^{(0)}，取 $B_0$ 为正定对称矩阵，k = 0;
2.计算 $g_k = g(w^(k))$ ，若 $g_k = 0$ ，则停止计算，否则转 (3) ；
3.利用 $B_k p_k = -g_k$ 计算 $p_k$ ；
4.一维搜索：求 $\lambda_k$ 使得
5.设 $w^{(k+1)} = w^{(k)} + \lambda_k * p_k$
6.计算 $g_{k+1}$ = g(w^{(k+1)}),
若 $g_k = 0$ ，则停止计算；否则，利用下面公式计算 $B_{k+1}$ :
7.令 $k = k + 1$ ，转步骤（3）

预测问题
对于预测问题，常用的方法是维特比算法，其思路如下：

输入：模型特征向量 $F (y, x)$ 和权重向量 $w$ ，输入序列（观测序列） $x={x_1,x_2,...,x_n}$ ；

输出：条件概率最大的输出序列（标记序列） $y^{*}= (y_1^*,y_2^*,...,y_n^*)$ ，也就是最优路径；
1.初始化
2.递推，对 $i = 2, 3, . . ., n$
3.终止
4.返回路径
求得最优路径 $y^{*}= (y_1^*,y_2^*,...,y_n^*)$

大⊙ω⊙蒜

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习算法公益学习打卡第四天

条件随机场一、马尔可夫过程1.定义二、隐马尔科夫算法1.定义2.假设3.存在问题三、条件随机场（以线性链条件随机场为例）1.定义2.基本问题一、马尔可夫过程1.定义假设一个随机过程中，tnt_ntn 时刻的状态xnx_nxn的条件发布，只与其前一状态xn−1x_{n-1}xn−1 相关，即：P(xn∣x1,x2,...,xn−1)=P(xn∣xn−1) P(x_n|x_1,...
复制链接

扫一扫