java简化笔记的方法_《简化中文NER中字典的使用》阅读笔记

题目:Simplify the Usage of Lexicon in Chinese NER

来源:ACL 2020

原文链接:

https://www.aclweb.org/anthology/2020.acl-main.528.pdf

转载请注明出处:学习ML的皮皮虾

Introduction

中文由于不存在自然的token之间的划分,在进行NER任务时往往需要先分词再做NER,但这样由于分词的误差可能导致实体边界识别错误。最近的一些工作在中文字符级别进行NER取得了不错的效果。

然而,在字符级别的NER模型中,词语的信息没法被完全利用。为了解决这一问题,Zhang and Yang (2018) 提出了Lattice-LSTM,保留所有能够匹配的单词信息,让模型选择具体使用哪一个。然而,本文作者认为Lattice-LSTM结构过于复杂(采用在非相邻字符中添加连接的方式,因此和LSTM的结构依赖较强),难以在工业场景下应用。为此,作者提出了简化的思路,希望能在中文字符级别NER的模型中融入字典信息,同时能够轻松更改模型的基础结构(例如LSTM -> CNN、BERT)。本文的贡献:

提出了一个简单而有效的方法,将词典的信息融入到字符级别的中文NER中;

所提出的方法可以融入到不同的序列标注架构,同时可以融入到预训练语言模型例如BERT中。

Background

Softword Feature

Softword指的是在word embedding中融入分词信息,常用于在字符级中文模型中使模型具有感知分词的能力。其做法是为B、M、E、S增加一个额外的embedding矩阵,然后将其与字编码拼接,作为每个字的表示输入模型:

equation?tex=x_j%5Ec+%5Cleftarrow+%5Bx_j%5Ec%3B%5Cboldsymbol%7Be%7D%5E%7Bseg%7D%28seg%28c_j%29%29%5D+%5Ctag%7B1%7D

通常情况下,

equation?tex=seg%28c_j%29+%5Cin+%5C%7B%5Ctext%7BB%2C+M%2C+E%2C+S%7D+%5C%7D

Lattice-LSTM

Lattice-LSTM首先通过词表去匹配句子,当其中的一个子序列

equation?tex=%5C%7Bc_i%2C+%5Cdots%2C+c_j%5C%7D 匹配时,将为

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值