机器学习笔记之马尔可夫模型——概率模型背景的阶段性介绍
引言
从本节开始将介绍同为概率生成模型的隐马尔可夫模型(Hidden Markov Model,HMM)。在介绍隐马尔可夫模型之前,对概率模型的整个逻辑进行阶段性介绍。
概率模型的阶段性介绍
频率学派求解模型的特点
在极大似然估计与最大后验概率估计中介绍过,频率学派的思想是将概率模型 P ( X ∣ θ ) P(\mathcal X \mid \theta) P(X∣θ)中的参数 θ \theta θ视作一个未知常量,通过求解 θ \theta θ实现求解概率模型 P ( X ∣ θ ) P(\mathcal X \mid \theta) P(X∣θ)。
频率学派针对的核心问题可看作是优化问题。何为优化问题?
它的具体流程可以表示如下:
-
首先,针对具体任务,将模型(Model)定义出来;
-
基于模型,结合任务以及样本点的性质,构建出相应的策略(Strategy):它是关于衡量模型参数的工具,即通过构建损失函数(Loss Function)来描述模型参数 θ \theta θ 和任务结果 之间的关联关系。
-
算法部分,针对构建好的策略,求解最优模型参数 θ ^ \hat \theta θ^,从而求解概率模型 P ( X ∣ θ ) P(\mathcal X \mid \theta) P(X∣θ)。
常见的模型参数求解方法有:- 求解析解:极大似然估计(Maximum Likelihood Estimate,MLE);
- 求迭代解:EM算法(Expectation-Maximization algorithm, EM);梯度下降(Gradient Descent,GD);牛顿法(Newton’s Method),自适应运动估计算法(Adaptive Momentum,Adam)等等。
-
- 模型表示:
f ( W , b ) = s i g n ( W T x ( i ) + b ) ( i = 1 , 2 , ⋯ , N ) f(\mathcal W,b) = sign(\mathcal W^{T}x^{(i)} + b) \quad (i=1,2,\cdots,N) f(W,b)=sign(WTx(i)+b)(i=1,2,⋯,N) - 策略设计:
L ( W , b ) = ∑ ( x ( i ) , y ( i ) ) ∈ D − y ( i ) ( W T x ( i ) + b ) ( D = { ( x ( i ) , y ( i ) ) ∣ y ( i ) ( W T x ( i ) + b ) < 0 } ) \mathcal L(\mathcal W,b) = \sum_{(x^{(i)},y^{(i)}) \in \mathcal D} -y^{(i)}\left(\mathcal W^{T}x^{(i)} + b\right) \quad (\mathcal D = \{(x^{(i)},y^{(i)}) \mid y^{(i)}\left(\mathcal W^{T}x^{(i)} + b\right) < 0\}) L(W,b)=(x(i),y(i))∈D∑−y(i)(WTx(i)+b)(D={(x(i),y(i))∣y(i)(WTx(i)+b)<0}) - 算法过程:梯度下降
W ( t + 1 ) ← W ( t ) − λ ∇ W W ( W , b ) \mathcal W^{(t+1)} \gets \mathcal W^{(t)} - \lambda \nabla_{\mathcal W} \mathcal W(\mathcal W,b) W(t+1)←W(t)−λ∇WW(W,b)
- 模型表示:
-
- 模型表示:
f ( W , b ) = W T x ( i ) + b ( i = 1 , 2 , ⋯ , N ) f(\mathcal W,b) = \mathcal W^{T}x^{(i)} + b \quad (i=1,2,\cdots,N) f(W,b)=WTx(i)+b(i=1,2,⋯,N) - 策略设计:最小二乘估计(Least Squares estimation,LS)
L ( W , b ) = ∑ i = 1 N ∣ ∣ W T x ( i ) + b − y ( i ) ∣ ∣ 2 \mathcal L(\mathcal W,b) = \sum_{i=1}^N ||\mathcal W^{T}x^{(i)} + b - y^{(i)}||^2 L(W,
- 模型表示: