Decomposed Meta-Learning for Few-Shot Named Entity Recognition

最新推荐文章于 2024-08-12 10:31:45 发布

pepsi_w

最新推荐文章于 2024-08-12 10:31:45 发布

阅读量368

点赞数 1

分类专栏：论文文章标签：人工智能深度学习 NER

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangyumei0916/article/details/134062913

版权

论文专栏收录该内容

39 篇文章 3 订阅

订阅专栏

原文链接：

https://aclanthology.org/2022.findings-acl.124.pdf

ACL 2022

介绍

问题

目前基于span的跨度量学习（metric learning）的方法存在一些问题：

1）由于是通过枚举来生成span，因此在解码的时候需要额外处理重叠的span；

2）non-entites类别的原型通常都是噪声；

3）跨域时，最有用的信息就是当前领域有限的样本，之前的方法只将这些样本用于分类的相似性计算。

IDEA

作者提出分解元学习（decomposed meta-learning）的方法来解决Few-shot ner任务（实体的边界检测和实体的分类）。

将span检测作为序列标注问题，并通过引入MAML（model-agnostic metalearning 不是很懂可以参考这篇文章Model-Agnostic Meta-Learning （MAML）模型介绍及算法详解 - 知乎）训练span detector，从而找到一个能快速适应新实体类别的模型参数进行初始化；对于实体分类，作者提出MAML-ProtoNet来找到一个合适的向量空间对不同类别的span进行分类。

方法

整个方法的整体结构如下所示：

Entity span Detection

span detection模型用于定位输入句子中的实体，该模块是类别无关的，学到的只是实体的边界信息（即领域不变的内部特征，而不是特定的领域信息），因此就能跨域进行实体定位。

Basci Detector

作者使用BIOES标注框架，给定一个有L个token的序列，使用encoder $f_{\theta }$ 来获得所有token的上下文表征，对于每个token 使用一个线性分类层来计算其是否是实体的一部分；

模型的损失如下所示：

使用每个token的交叉熵损失，这里引入最大值是为了缓解损失相对较高的token导致的学习不充分问题。推理阶段，通过Viterbi算法进行解码。

Meta-Learning Procedure

在该阶段，作者对边界检测模型进行训练。

首先，从train数据集中进行随机采样得到，对模型执行inner-update：

其中 $U^{n}$ 表示在学习率为α时n步的梯度更新，来最小化loss（公式3）。

然后在query set中对更新后的模型进行评估，同时通过汇总多个时间来执行meta-update：

上式中的二阶导数，使用其一阶近似值进行估算：

meta-test阶段，首先将在support set上训练好的span detection迁移到新领域，然后对query样本进行相应的预测。

Entity Typing

Basic Model: ProtoNet

给定输入序列L：，用公式1的方法计算word embedding hi，并按以下方式计算span的表征：

对于每个类别yk，使用这个support set中属于该类别的所有span来计算原型ck：

训练过程中，首先使用support set中的训练数据计算所有类别的原型，然后对于query set中的每个span，通过计算其表征与每个类别原型ck的距离来得到属于每个类别的分数：

最小化分类的交叉熵损失来训练原型网络：

推理阶段，首先利用训练好的模型计算所有训练集中所有类别的原型，然后使用边界检测模型得到span，按照公式10为每个span进行分类：

MAML Enhanced ProtoNet

在训练集中进行随机采样，得到。对于inner-update，首先为每个类别计算原型，然后将每个span作为query对模型参数进行更新：

在meta-update阶段，使用 $\gamma {}'$ 重新计算每个类别的原型，即在query set上对r进行验证，同样的使用一阶导数近似值提高计算效率：

训练过程中没有见过的数据，首先利用support中的样本来对meta-learned的模型进行微调，微调好后再计算每个类别的原型，最后基于这些原型进行分类。

实验

对比实验

在Intra和Inter这两种数据设置下进行实验，结果如下图所示：

在Cross-Dataset数据集上进行实验，结果如下所示：

消融实验

对主要模块进行了消融实验，结果如下所示：

其他

对不同类别的span表征进行了可视化：

结论

这篇论文没有很看懂，去看了以下Meta-learning的相关内容也没有很明白，似乎就是meta-learning就是为模型训练出一个更合适的参数，使其能够更快的应用于新领域。上周看的一篇论文感觉跟这篇很像，不过不知道是不是在Few-shot ner中用原型学习的很多，感觉还挺像的。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Decomposed Meta-Learning for Few-Shot Named Entity Recognition

问题目前基于span的跨度量学习（metric learning）的方法存在一些问题：1）由于是通过枚举来生成span，因此在解码的时候需要额外处理重叠的span；2）non-entites类别的原型通常都是噪声；3）跨域时，最有用的信息就是当前领域有限的样本，之前的方法只将这些样本用于分类的相似性计算。IDEA作者提出分解元学习（decomposed meta-learning）的方法来解决Few-shot ner任务（实体的边界检测和实体的分类）。
复制链接

扫一扫

专栏目录

pepsi_w CSDN认证博客专家 CSDN认证企业博客

码龄5年

164: 原创

29万+: 周排名

1万+: 总排名

8万+: 访问

: 等级

1791: 积分

827: 粉丝

154: 获赞

23: 评论

270: 收藏

私信

关注

热门文章

分类专栏

最新评论

A Span-based Multi-Modal Attention Network for joint entity-relationextraction
十九岁的花季少女: 您好，请问您有这个源码吗，我没有找到，如果有的话可不可以麻烦您发我邮箱一份：1348874416@qq.com。万分感谢
PIQN：Parallel Instance Query Network for Named Entity Recognition
pepsi_w: 这篇论文没有复现过不知道具体情况但是看文件名应该是你需要下载wordvec和预训练模型放在对应的文件夹里面 readme里面没有写吗？
PIQN：Parallel Instance Query Network for Named Entity Recognition
Platycodon_carol: 请问复现时，训练出现了问题。缺少了两个文件： 1.piqn 文件夹下的configs文件夹下的flat.conf文件里的wordvec_path路径的文件 2.piqn 文件夹下的configs文件夹下的flat.conf文件里的model_path路径的文件
Leetcode55&&LeetCode45
普通网友: 大佬高质量文章，图文并茂，逻辑清晰，受益匪浅，期待大佬新作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Leetcoed122
CSDN-Ada助手: 推荐算法技能树：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。