概述
对于序列标注问题,目前BiLSTM-CRF模型是目前使用比较流行的方法。本文以Neural Architectures for Named Entity Recognition为例,讲解BiLSTM-CRF模型在命名实体识别任务上的应用,着重于CRF层的分析。
数据描述
假设数据集有两种实体类型:人物(Person)
和机构(Organization)
。同时假设采用BIO
标注体系。因此会有五种实体标签:
- B-Person
- I-Person
- B-Organization
- I-Organization
- O
结构简介
第一层:表示层
将每个句子表示为词向量和字向量。
第二层:BiLSTM层
输入词向量和字向量到模型中的BiLSTM层,该层的输出是句子的每个词的所有标签的各自得分。
【注】此处的标签的各自得分充当的是CRF模型中的非归一化的发射概率。
在本例中就是五种标签的各自得分,如B-Person(1.5),I-Person(0.9),B-Organization(0.1),I-Organization(0.08),O(0.05)。
第三层:CRF层
该层使用BiLSTM层的输出——每个词的所有标签的各自得分,即(发射概率矩阵)以及转移概率矩阵,作为原始CRF模型的参数,最终获得标签序列的概率。
【注】
另一种结构图,表达含义相同。
CRF层详解
原理
BiLSTM层的输出是每个词的所有标签的各自得分,相当于每个词映射到标签的发射概率值。
设BiLSTM层的输出矩阵为 P P ,其中 代表词 wi w i 映射到 tagj t a g j 的非归一化概率,类比于CRF模型中的发射概率矩阵。
CRF层中有一个转移概率矩阵 A A ,