paperwithcode_Chinese NER (Paper with code)

76bc16605f24d13933c1d43d26cd0f84.png

本文介绍论文《Adversarial Transfer Learning for Chinese Named Entity Recognition with Self-Attention Mechanism》EMNLP2018

(希望可以每周写一篇博客)

任务介绍

中文命名实体识别首先有识别实体边界,然后将他们分类到预定义的类别中,比如PER(人物), LOC(地点)等。

981ed297908e8016bbb074ae3010427f.png

动机

作者观察到

  1. Weibo NER训练集很小,只有1.3K。
  2. 中文命名实体识别和中文词分割有相似之处和不同之处

bdd051166a88732c2b505702382e191b.png

0779f3bf0d613d262e80e3b569c15178.png

所以作者希望用transfer learning to learn task-shared information, using adversarial training to remove task-specific information.

另外,由于词的类别(PER, LOC, ORG etc.)与词的上下文是相关的,用self-attention来学习这种关联

935e2685902cb6b41c5ae52f40260dd4.png

方法

左边是NER task,右边是CWS task,中间是adversarial training。Adversarial training 用来预测当前输入是哪一个task, NER or CWS,希望shared bilstm学到的信息跟具体任务无关,跟ner and cws task 都有关。Transfer learning to learn task-shared information, adversarial training to remove task-specific information.

990c526b04fd53a4be46a65722b89a66.png

代码:

model

  1. 共享BILSTM

9e4d2e5f5b6b38b97410f37b74360fe8.png

2. CWS 私有BILSTM

168fe35c4d996538556b5a29b85ccf6f.png

3. NER 私有BILSTM

6cc26859156b4e0dafa826a62b44f2dc.png

Loss

  1. NER loss

4524c45aa2352a9ea1bad2d83d4ba65e.png

2. CWS loss

2aa55bb5a45a301b3e3991c13cdd2385.png

3. Adversarial loss

0fc15a66839b62256a56fcf4bef32d65.png

c7c11bdfc7f491cf5592607aef6f36d5.png

4. Combine the loss

da243735649c13122b302c86b8b72cbc.png

结果

3041ff8abde3fd5b39d4d4f0fae7f0ff.png

在SighanNER 和 Weibo NER 都取得了state of the art result. F1 score 90.64, 53.08 respectively.

引用

http://aclweb.org/anthology/D18-1017

https://github.com/CPF-NLPR/AT4ChineseNER

https://vimeo.com/306354811

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 中文NER数据集是用于命名实体识别的中文语言数据集。NER是自然语言处理中的重要任务之一,旨在识别文本中的命名实体,例如人名、地名、组织机构名称等等。中文NER数据集是一个用于训练和评估中文NER模型的关键资源,可以帮助研究人员和开发人员构建更加准确和有效的中文NER模型。 中文NER数据集通常包含大量的文本数据,并且每个实体都会标记不同的标签,例如人名、地名或组织机构名称等。中文NER数据集还需要满足高质量和多样性的要求,以确保训练的模型能够适应各种不同的语言环境和实体类型。 中文NER数据集的应用非常广泛,例如在搜索引擎、信息抽取和智能问答等领域中都有重要的应用。由于中文语言的复杂性和多样性,构建高质量的中文NER数据集是一项具有挑战性的任务,需要不断地努力和创新,以提高中文NER技术的准确性和效率。 ### 回答2: Chinese NER数据集是一个用于命名实体识别的中文文本数据集。其中的NER是指命名实体识别(Named Entity Recognition),也就是从文本中自动识别出人名、地名、组织机构名等实体信息的任务。这个数据集中包含了大量的中文文本数据,在文本上的标注信息可用于下一步的实体识别任务,也方便开展NLP技术相关的研究工作。 Chinese NER数据集的数据来源非常广泛,包括新闻报道、社交网络、采购合同、科技报告等不同类型的文本。这些文本都经过了专业的打标人员进行标注,标注的实体范畴包括人名、地名、机构名、时间、数字、货币等多种类型。这些标注信息可以被用于中文命名实体识别模型的训练和评估。 对于研究人员和大数据分析师而言,Chinese NER数据集可以为他们提供大量的中文文本数据,并且这些文本数据都包含着标注信息,有利于帮助他们更好地开发针对中文文本的命名实体识别算法和模型,并从中发掘有意义的结论。这个数据集的开放对于中文NLP技术的发展有着重要的意义,并且能够推动更多相关工作的开展。 ### 回答3: Chinese NER数据集是一种用于中文命名实体识别的数据集。命名实体是指在自然语言文本中具有特定意义的实体,例如人名、地名、机构名、日期和时间等。该数据集提供了一组带有标签的中文文本,可以用于训练和测试中文NER模型的准确性和性能。该数据集通常包含多个数据集,如MSRA、OntoNotes和Weibo等。它们是从不同的文本来源和类型中收集的,包括新闻、博客、社交媒体和文学作品等。数据集的规模可以有不同的级别,一些具有数千个标注实体,而其他的则可能包含成千上万的标注实体。使用这些数据集可以帮助研究人员和开发者训练出更准确的中文命名实体识别模型,在诸如信息抽取、机器翻译和搜索引擎等应用中发挥作用。在当前语言处理技术的快速发展和应用推广中,构建高质量的中文NER数据集是非常重要的。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值