数据增强：Simple Questions Generate Named Entity Recognition Datasets

YingJingh

已于 2022-11-27 21:30:38 修改

阅读量578

点赞数

分类专栏： EMNLP 文章标签：人工智能深度学习

于 2022-11-27 21:30:26 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Hekena/article/details/128069886

版权

EMNLP 专栏收录该内容

18 篇文章 2 订阅

订阅专栏

数据增强的方式一般是无标注数据集的情形的一种解决方式，今天的讲座报告中对这问题做了梳理。11.27学术报告文章，应该是韩旭的报告。

文章目录

问题背景
一、论文核心
二、文章内容
三、experiments
总结

问题背景

还是在于方法的创新，虽然是数据增强，但玩出了新花样呀。

标注数据集少，所以，在实体识别时，人们开始使用一些领域词典对齐生成伪标注数据集，但在一些情况下，字典也是不可得的，所以，如何解决呢？

一、论文核心

知识问答的形式，生成数据集，用于NER任务
（1）采用提示学习的范式，生成question
（2）采用phrase retrieval model 用于answer 这些问题
（3）在生成的数据上，测试model performance。

二、文章内容

(1) 查询表述：NER的需求首先被表述为简单的自然语言问题。

模板：Which [TYPE]?
针对数据集中每个type设计一种模板，用于retrieval corresponding的类型。

(2) 检索：我们使用一个开放领域的QA模型来检索相关的短语（即实体）以及要注释的句子。

检索语料是维基百科。
针对每个问题，选择到的top-k个phase来缓解噪声的影响。同时，dictionary形成。
句子中包含检索的phrase的句子被选择出来，每个句子的score由QA模型计算得到。

(3) 词典匹配：检索到的句子由规范化的短语来注释。生成train数据集。

(4) 自我训练：我们使用自我训练(self training)，纯粹在我们生成的数据集上训练NER模型。更多细节见第3节。

First, we initialize a teacher model with the generated D˜ train. The
teacher then annotates X˜ train, and a student model is trained on the
re-annotated corpus. For each iteration, the teacher model is updated
as the student model, and we use the student model as our final NER
model.

在这里插入图片描述

三、experiments

在rich-resource和few or zero shot条件下，测试模型的性能。
在fine-gain的实体类型上，测试模型的性能。
在消融实验中，研究了question template，一些normalization rules（规范化规则），self
training 的影响。

总结

未来可能的方向：更好的QA模型；多种类型的NER任务（每种类型下，包含的可能实体数量是否有影响，比如美国州和运动员，后者实体量显然大于前者）；

新的技术策略，解决旧的问题。
方法可不新颖，但是思路起码要OK。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
数据增强：Simple Questions Generate Named Entity Recognition Datasets

未来可能的方向：更好的QA模型；多种类型的NER任务（每种类型下，包含的可能实体数量是否有影响，比如美国州和运动员，后者实体量显然大于前者）；新的技术策略，解决旧的问题。方法可不新颖，但是思路起码要OK。
复制链接

扫一扫

专栏目录

YingJingh CSDN认证博客专家 CSDN认证企业博客

码龄4年

343: 原创

2万+: 周排名

9042: 总排名

25万+: 访问

: 等级

4109: 积分

1995: 粉丝

211: 获赞

49: 评论

682: 收藏

私信

关注

热门文章

分类专栏

最新评论

word中避免无引用源的方法
hx0520: 摸索了一下mac系统锁定域,按command+fn+f11
PDF相关的处理操作
haakaa: csdn这段确实好用
EMNLP-21-Enhanced Language Representation with Label Knowledge for Span Extraction-NER-融入label knowl
小阳不一样666666: 请问作者你复现成功了嘛？我按照论文设置超参数，但是对于ace2005效果只有0.84没有论文的0.86，这是我设置的情况：--task_type=ner --task_save_name=ner111 --data_dir=./data/ace2005 --data_name=ace2005 --model_name_or_path=D:/YangCode/data/bert-large-cased --model_name=SERS --output_dir=./outmodel --result_dir=./result --do_lower_case=False --first_label_file=./data/ace2005/processed/label_map.json --train_set=./data/ace2005/processed/train.json --dev_set=./data/ace2005/processed/dev.json --test_set=./data/ace2005/processed/test.json --label_str_file=./data/ace2005/processed/label_annotation.txt --overwrite_output_dir=True --exist_nested=True --do_train=True --is_chinese=False --val_step=20 --use_attn=True --seed=42 --max_seq_length=128 --dropout_rate=0.1 --learning_rate=3e-5 --task_layer_lr=2 --num_train_epochs=20能帮忙看看问题所在嘛？
EMNLP-21-Enhanced Language Representation with Label Knowledge for Span Extraction-NER-融入label knowl
YingJingh: 那得看你的环境和论文中的环境一不一致
EMNLP-21-Enhanced Language Representation with Label Knowledge for Span Extraction-NER-融入label knowl
小阳不一样666666: 你好，请问这个代码你运行起来了嘛？能咨询你一下嘛？

大家在看

酒店押金原路退回系统开通方法，手机查看报表 414

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

YingJingh 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。