标注和分段任务最好是的方法是使用HMMs和有效状态自动机。
HMMs是一种产生模型的一种形式,定义了一种联合概率p(x,y);x,y是随即变量。范围是对观察到的序列和相应的标注序列。
必须枚举所有的观察序列。
我们希望模型是易处理的,并且不依赖于独立性的假设。满足这种需求的方法之一是定义条件概率p(Y|x),通过特定的观察序列x下的标注序列,而不是使用通过标注和观察序列的联合概率分布。
Conditional models are used to label a novel observation sequence x* by selecting the label sequence y*
that maximizes the conditional probability p(y*|x*)
crf是一种概率框架,对于序列数据的标注和分段。
Crf是无向图模型的一种形式,定义了一种log-linear分布,通过给定特定观察序列下标记序列。
Crf对比HMMs的好处是,crf本身的条件性,优于HMMs对变量独立性的假设。
Crf避免了标注有“偏”的问题,这个问题是最大熵和基于有向图的条件马尔科夫模型。
CRF在现实世界中要优于MEMMs(maximum entropy Markov model)和HMMs。
无向图模型
条件随机场可以认为是一个无向图模型,或者是一个马尔科夫随机场。
最大熵的基本思想如下:
我们从训练数据中抽样得到概率分布,在给定信息下我们选择的分布满足所有的约束条件,其他的则满足最大可能性的熵。这种想法内在隐含的避免的过拟合。这种方法导致了log-linear model来对分布做估计。
分类框架:
基本是贝叶斯的后验分布。
HMMs是一种产生模型的一种形式,定义了一种联合概率p(x,y);x,y是随即变量。范围是对观察到的序列和相应的标注序列。
必须枚举所有的观察序列。
我们希望模型是易处理的,并且不依赖于独立性的假设。满足这种需求的方法之一是定义条件概率p(Y|x),通过特定的观察序列x下的标注序列,而不是使用通过标注和观察序列的联合概率分布。
Conditional models are used to label a novel observation sequence x* by selecting the label sequence y*
that maximizes the conditional probability p(y*|x*)
crf是一种概率框架,对于序列数据的标注和分段。
Crf是无向图模型的一种形式,定义了一种log-linear分布,通过给定特定观察序列下标记序列。
Crf对比HMMs的好处是,crf本身的条件性,优于HMMs对变量独立性的假设。
Crf避免了标注有“偏”的问题,这个问题是最大熵和基于有向图的条件马尔科夫模型。
CRF在现实世界中要优于MEMMs(maximum entropy Markov model)和HMMs。
无向图模型
条件随机场可以认为是一个无向图模型,或者是一个马尔科夫随机场。
最大熵的基本思想如下:
我们从训练数据中抽样得到概率分布,在给定信息下我们选择的分布满足所有的约束条件,其他的则满足最大可能性的熵。这种想法内在隐含的避免的过拟合。这种方法导致了log-linear model来对分布做估计。
分类框架:
基本是贝叶斯的后验分布。