以简单易懂的具体例子来讲述什么是条件随机场。
定义CRF中的特征函数
现在,我们正式地定义一下什么是CRF中的特征函数,所谓特征函数,就是这样的函数,它接受四个参数:
- 句子
s
(就是我们要标注词性的句子) i
,用来表示句子s中第i个单词
l_i
,表示要评分的标注序列给第i个单词标注的词性
l_i-1
,表示要评分的标注序列给第i-1个单词标注的词性
它的输出值是0或者1, 0表示要评分的标注序列不符合这个特征,1表示要评分的标注序列符合这个特征。
Note: 这里,我们的特征函数仅仅依靠当前单词的标签和它前面的单词的标签对标注序列进行评判,这样建立的CRF也叫作线性链CRF,这是CRF中的一种简单情况。为简单起见,本文中我们仅考虑线性链CRF。
从特征函数到概率
定义好一组特征函数后,我们要给每个特征函数
f
j
f_j
fj赋予一个权重
λ
j
λ_j
λj。现在,只要有一个句子s,有一个标注序列l,我们就可以利用前面定义的特征函数集来对l评分。
上式中有两个求和,外面的求和用来求每一个特征函数
f
j
f_j
fj评分值的和,里面的求和用来求句子中每个位置的单词的的特征值的和。
对这个分数进行指数化和标准化,我们就可以得到标注序列l的概率值
p
(
l
∣
s
)
p(l|s)
p(l∣s),如下所示: