A Unified MRC Framework for Named Entity Recognition文献阅读

最新推荐文章于 2024-01-25 01:54:24 发布

XTWLP

最新推荐文章于 2024-01-25 01:54:24 发布

阅读量414

点赞数

分类专栏：文献阅读文章标签：深度学习人工智能自然语言处理机器学习

本文链接：https://blog.csdn.net/qq_45552117/article/details/113619645

版权

文献阅读专栏收录该内容

1 篇文章 0 订阅

订阅专栏

A Unified MRC Framework for Named Entity Recognition

关于A Unified MRC Framework for Named Entity Recognition的文献理解，为了方便快速理解，我选择性记录。

文章目录

A Unified MRC Framework for Named Entity Recognition
摘要
一、数据集
二、模型细节
三、结果展示

摘要

命名实体识别（NER）是自然语言处理（NLP）中的一项任务，根据命名实体是否嵌套分为：nested NER 和 flat NER。一般的模型采用的大多是 sequence labeling models（序列标记模型），它只能实现分配单一label给单一token，而nested NER可能出现一个token具有多个label的情况。

本篇论文采用machine reading comprehension (MRC) 的方式，改善传统sequence labeling models。对于命名实体识别转换成一个QA问题，即根据问题找答案，如此一来，nested NER就转换成寻找多个问题的answer。

一、数据集

首先，将带有标记的NER数据集改造成三元集合：(Question, Answer, Context)。

对于每一个标签 $\in Y$ 将其关联成 $m$ 个问题： $q_y=\{q_1, q_2, ..., q_m\}$
实体关联为： $x_{start,end}=\{x_{start}, x_{start+1},· · · , x_{end-1}, x_{end}\}$ 即为文章 $X$ 的一个子串，其中满足 $start\leq end$
这样我们就可以得到一个三元组 $q_y,x_{start,end},X)$ 即三元集合(Question, Answer, Context)

二、模型细节

1.框架

主要是利用BERT实现，训练数据改造为： ${[CLS], q_1, q_2, ..., q_m,[SEP], x_1, x_2, ..., x_n\}，[CLS]$ 和 $[S E P]$ 为特殊标记。
BERT在接收这个训练数据后会输出一个矩阵 $E\in \mathbb{R}^{n\times d}$ 其中 $d$ 表示BERT最后一层的向量维数

2.跨度选择

（1）开始位置预测

利用BERT训练出来的结果 $E$ 预测预测每个token作为开始的机率：
$P_{start}=softmax_{each\ row}(E \cdot T_{start})\in \mathbb{R}^{n\times 2}$
其中 $T_{start}\in \mathbb R^{d\times 2}$ 需要训练, $P_{start}$ 给出了相应位置的token作为开始下标的机率

（2）结束位置预测

与开始位置预测过程一致，只是用的是 $T_{end}$ 矩阵，概率矩阵也是用 $P_{end}$ 进行储存

（3）开始-结束匹配

在预测过程中，可能会有多个同一类别的实体，这意味着有多个开始和结束下标。由于命名实体可能重叠嵌套，将开始下标和最近的结束下标匹配并不适用，所以需要一个新的方法进行匹配。
通过对 $P_{start},P_{end}$ argmax,可以得到起始位置和结束位置的索引：
$\hat I_{start}=\{i|argmax(P_{start}^{(i)})=1,i=1,...,n\} \\ \hat I_{end}=\{j|argmax(P_{end}^{(i)})=1,j=1,...,n\}$
训练一个二分类模型对开始和结束位置匹配：
$P_{i_{start},j_{end}}=sigmoid(m\cdot concat(E_{i_{start}},E_{j_{end}}))$
其中 $m\in \mathbb{R}^{1\times 2d}$ 需要训练

（4）训练和测试

开始和结束位置的损失参数为：
$\mathcal{L}_{start}=CE(P_{start},Y_{start})\\ \mathcal{L}_{end}=CE(P_{end},Y_{end})$
开始和结束位置匹配的损失函数为：
$\mathcal{L}_{span}=CE(P_{start,end},Y_{start,end})$
总体损失函数为：
$\mathcal{L}=\alpha \mathcal{L}_{start}+\beta \mathcal{L}_{end}+\gamma\mathcal{L}_{span}$
注意： $\alpha,\beta,\gamma\in[0,1]$ 是控制各损失函数对总体贡献超参数。

三、结果展示

嵌套NER的数据集的结果：
在这里插入图片描述
平面NER数据集上的结果展示：

查询问题和句子之间的注意力矩阵，可以看到问题和正确答案的相关性很高。

在这里插入图片描述
可以看到BERT-MRC比BERT-Tagger需要更少的数据。

XTWLP

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
A Unified MRC Framework for Named Entity Recognition文献阅读

A Unified MRC Framework for Named Entity Recognition关于A Unified MRC Framework for Named Entity Recognition的文献理解，为了方便快速理解，我选择性记录。文章目录A Unified MRC Framework for Named Entity Recognition摘要一、数据集二、模型细节1.框架2.读入数据总结摘要命名实体识别（NER）是自然语言处理（NLP）中的一项任务，根据命名实体是否
复制链接

扫一扫