CRF 是一种常用的序列标注算法,可用于词性标注,分词,命名实体识别等任务。BiLSTM+CRF 是目前比较流行的序列标注算法,其将 BiLSTM 和 CRF 结合在一起,使模型即可以像 CRF 一样考虑序列前后之间的关联性,又可以拥有 LSTM 的特征抽取及拟合能力。
1.前言
在之前的文章CRF 条件随机场学习笔记中,介绍了条件随机场 CRF,描述了 CRF 和 LSTM 的区别。我们以分词为例,每个字对应的标签可以是 s, b, m, e 四种。
给定一个句子 "什么是地摊经济",其正确的分词方式是 "什么 / 是 / 地摊 / 经济",每个字对应的分词标签是 "be / s / be / be"。从下面的图片可以看出 LSTM 在做序列标注时的问题。
BiLSTM+CRF 分词
BiLSTM 可以预测出每一个字属于不同标签的概率,然后使用 Softmax 得到概率最大的标签,作为该位置的预测值。这样在预测的时候会忽略了标签之间的关联性,如上图中 BiLSTM 把第一个词预测成 s,把第二个词预测成 e。但是实际上在分词时 s 后面是不会出现 e 的,因此 BiLSTM 没有考虑标签间联系。
因此 BiLSTM+CRF 在 BiLSTM 的输出层加上一个 CRF,使得模型可以考虑类标之间的相关性,标签之间的相关性就是 CRF 中的转移矩阵,表示从一个状态转移到另一个状态的概率。假设 CRF 的转移矩阵如下图所示。