序列标注：BiLSTM-CRF模型

最新推荐文章于 2024-06-19 11:40:57 发布

tiweeny

最新推荐文章于 2024-06-19 11:40:57 发布

阅读量2.4w

点赞数 4

分类专栏： NLP

本文链接：https://blog.csdn.net/tiweeny/article/details/81437808

版权

对于序列标注问题，目前BiLSTM-CRF模型是目前使用比较流行的方法。本文以Neural Architectures for Named Entity Recognition为例，讲解BiLSTM-CRF模型在命名实体识别任务上的应用，着重于CRF层的分析。

假设数据集有两种实体类型：人物(Person)和机构(Organization)。同时假设采用BIO标注体系。因此会有五种实体标签：

mark

第一层：表示层

将每个句子表示为词向量和字向量。
第二层：BiLSTM层

输入词向量和字向量到模型中的BiLSTM层，该层的输出是句子的每个词的所有标签的各自得分。

【注】此处的标签的各自得分充当的是CRF模型中的非归一化的发射概率。

在本例中就是五种标签的各自得分，如B-Person(1.5),I-Person(0.9),B-Organization(0.1),I-Organization(0.08),O(0.05)。
第三层：CRF层

该层使用BiLSTM层的输出——每个词的所有标签的各自得分，即（发射概率矩阵）以及转移概率矩阵，作为原始CRF模型的参数，最终获得标签序列的概率。

【注】

另一种结构图，表达含义相同。

BiLSTM层的输出是每个词的所有标签的各自得分，相当于每个词映射到标签的发射概率值。

设BiLSTM层的输出矩阵为 $P$ ,其中 $P_{i,j}$ 代表词 $w_i$ 映射到 $tag_j$ 的非归一化概率，类比于CRF模型中的发射概率矩阵。
CRF层中有一个转移概率矩阵 $A$ , $A_{i, j}$

关注

专栏目录