昇思MindSpore 25天学习打卡营|day13

最新推荐文章于 2024-07-19 15:16:23 发布

爱睡觉的尘

最新推荐文章于 2024-07-19 15:16:23 发布

阅读量892

点赞数 10

文章标签：学习

本文链接：https://blog.csdn.net/m0_73961262/article/details/140477941

版权

LSTM+CRF序列标注

这是一个属于自然语言处理的应用实践

概念

序列标注指给定输入序列，给序列中每个Token进行标注标签的过程。序列标注问题通常用于从文本中进行信息抽取，包括分词(Word Segmentation)、词性标注(Position Tagging)、命名实体识别(Named Entity Recognition, NER)等。以命名实体识别为例：

输入序列	清	华	大	学	坐	落	于	首	都	北	京
输出标注	B	I	I	I	O	O	O	O	O	B	I

如上表所示，清华大学和北京是地名，需要将其识别，我们对每个输入的单词预测其标签，最后根据标签来识别实体。

——使用了一种常见的命名实体识别的标注方法——“BIOE”标注，将一个实体（Entity）的开头标注为B，其他部分标注为I，非实体部分标注为O。

条件随机场（Conditional Random Field，CRF）

从上文的举例可以看到，对序列进行标注，实际上对序列中每个Token进行标签预测，可以直接视作简单的多分类问题。但是序列标注不仅仅需要对单个Token进行分类预测，同时相邻Token直接有关联关系。以清华大学一词为例：

输入序列	清	华	大	学
输出标注	B	I	I	I	√
输出标注	O	I	I	I	×

如上表所示，正确的实体中包含的4个Token有依赖关系，I前必须是B或I，而错误输出结果将清字标注为O，违背了这一依赖。将命名实体识别视为多分类问题，则每个词的预测概率都是独立的，易产生类似的问题，因此需要引入一种能够学习到此种关联关系的算法来保证预测结果的正确性。而条件随机场是适合此类场景的一种概率图模型。