顺序数据：状态空间模型

最新推荐文章于 2025-04-22 15:56:14 发布

-柚子皮-

最新推荐文章于 2025-04-22 15:56:14 发布

阅读量1.2w

点赞数 7

分类专栏：序列数据机器学习文章标签： machine learning 顺序数据

本文链接：https://blog.csdn.net/pipisorry/article/details/43973567

版权

机器学习同时被 2 个专栏收录

54 篇文章

订阅专栏

序列数据

10 篇文章

订阅专栏

本文探讨了顺序数据的建模方法，包括独立同分布假设的局限性、马尔科夫模型的应用，以及通过引入潜在变量的状态空间模型。还讨论了隐马尔可夫模型和线性动态系统的特性，并对比了朴素贝叶斯、逻辑回归、条件随机场和HMM之间的差异。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

http://blog.csdn.net/pipisorry/article/details/4397356

顺序数据

之前注意力集中在数据集里的数据点是独立同分布的情形。这个假设使得我们将似然函数表示为在每个数据点处计算的概率分布在所有数据点上的乘积。

然而,对于许多应用来说,独立同分布的假设不成立。考虑这样的数据集中的一个重要的类型，即描述了顺序数据的数据集。这些数据集通常产生于沿着时间序列进行的测量，例如某个特定位置的连续若干天的降水量测量,或者每天汇率的值,或者对于语音识别任务,在连续的时间框架下的声学特征。顺序数据也可以在时间序列以外的问题中出现,例如一段 DNA 上的碱基对序列,或者一个英语句子中的字符序列。这里研究的模型同样适用于所有形式的顺序数据,而不仅仅是时间序列数据。

顺序分布

静止顺序分布和非静止顺序分布。在静止分布中,数据会随着时间发生变化,但是生成数据的概率分布保持不变。对于更复杂的非静止分布的情形,生成概率本身会随着时间变化。这里,我们关注的是静止分布的情形。

独立同分布建模

处理顺序数据的最简单的方式是忽略顺序的性质,将观测看做独立同分布,对应于图13.2所示的图。然而,这种方法无法利用数据中的顺序模式,例如序列中距离较近的观测之间的相关性。

某小皮

马尔科夫模型( Markov model )

为了在概率模型中表示这种效果,我们需要放松独立同分布的假设。完成这件事的一种最简单的方式是考虑马尔科夫模型( Markov model )。

马尔科夫模型( Markov model )表示观测序列的联合概率分布

一阶马尔科夫链( first-order Markov chain )模型中, N 次观测的序列的联合概率分布为

根据 d -划分的性质,给定时刻 n 之前的所有观测,我们看到观测 x n 的条件概率分布为

[马尔科夫模型 Markov model ]

某小皮

但是如果我们希望构造任意阶数的不受马尔科夫假设限制的序列模型,同时能够使用较少数量的自由参数确定。我们可以引入额外的潜在变量来使得更丰富的一类模型能够从简单的成分中构建。

状态空间模型

对于每个观测 x n ,我们引入一个对应的潜在变量 z n (类型或维度可能与观测变量不同)。我们现在假设潜在变量构成了马尔科夫链,得到的图结构被称为状态空间模型( state space model ),如图13.5所示。

状态空间模型满足下面的关键的条件独立性质,即给定 z n 的条件下, z n−1 和 z n+1 是独立的,从而

状态空间模型的联合概率分布为

状态空间模型的两个最重要的例子

对于顺序数据来说,图13.5描述了两个重要的模型。

隐马尔可夫模型( hidden Markov model ),其中潜在变量是离散的。注意, HMM 中的观测变量可以是离散的或者是连续的,并且可以使用许多不同的条件概率分布进行建模。[HMM：隐马尔可夫模型HMM ]

线性动态系统( linear dynamical system ),其中潜在变量和观测变量都是高斯变量(结点的条件概率分布对于父结点的依赖是线性高斯的形式)。[线性动态系统 linear dynamical system]

这两个模型都使用具有树结构(没有环)的有向图描述,这样就可以使用加和-乘积算法来高效地进行推断。

某小皮

条件随机场CRF

[条件随机场CRF - 表示 ]

某小皮

朴素贝叶斯、LR、CRF、HMM之间的联系

Sutton, Charles, and Andrew McCallum. "An introduction to conditional random fields." Machine Learning 4.4 (2011): 267-373.

Note: 图中LR可以换成ME（最大熵模型），毕竟是ME的特例。

lz的理解是：NB对P(y|x)的建模是通过计算P(x|y)和P(y)的概率实现的，是独立的；

LR直接对P(y|x)建模，对y的建模是在x的条件下的，所以NB条件化就是LR。且类似CRF，直接分解为p(y | x) = 1/Z(x) * exp( theta * x) （多类LR softmax），其中的无向图分解的势函数为exp( theta * x)，对应图中的小方块。

HMM是先通过对p(y2 | y1)建模，再通过对p (x | y2)建模，从而对p(y | x)建模的，所以NB序列化就是HMM；

CRF是在给定x情况下，直接对P(y | x)建模，相对LR来说，多考虑了y之前的关系（t特征函数），所以是LR的序列化；且是HMM的条件化（给定x）。

统计模型之间的比较：[条件随机场CRF - 表示：CRF与其它模型的比较]

[统计模型之间的比较，HMM，最大熵模型，CRF条件随机场]

朴素贝叶斯和逻辑回归有以下几点不同

(1) Naive Bayes是一个生成模型，在计算P(y|x)之前，先要从训练数据中计算P(x|y)和P(y)的概率，从而利用贝叶斯公式计算P(y|x)。

Logistic Regression是一个判别模型，它通过在训练数据集上最大化判别函数P(y|x)学习得到，不需要知道P(x|y)和P(y)。即LR在给定x下条件直接对y建模，而NB是使用贝叶斯公式，对y建模，没有x的条件。

(2) Naive Bayes是建立在条件独立假设基础之上的，设特征X含有n个特征属性（X1，X2，...Xn），那么在给定Y的情况下，X1，X2，...Xn是条件独立的。

Logistic Regression的限制则要宽松很多，如果数据满徐条件独立假设，Logistic Regression能够取得非常好的效果；当数据不满度条件独立假设时，Logistic Regression仍然能够通过调整参数让模型最大化的符合数据的分布，从而训练得到在现有数据集下的一个最优模型。

(3) 当数据集比较小的时候，应该选用Naive Bayes，为了能够取得很好的效果，数据的需求量为O(log n)

当数据集比较大的时候，应该选用Logistic Regression，为了能够取得很好的效果，数据的需求量为O( n)

Naive Bayes运用了比较严格的条件独立假设，为了计算P(y|x)，我们可以利用统计的方法统计数据集中P(x|y)和P(y)出现的次数，从而求得P(x|y)和P(y)。因而其所需的数据量要小一些，为O(log n).

Logistic Regression在计算时，是在整个参数空间进行线性搜索的，需要的数据集就更大，为O( n)。

[朴素贝叶斯 VS 逻辑回归区别]

from:http://blog.csdn.net/pipisorry/article/details/43973567

ref: