java简化笔记的方法_《简化中文NER中字典的使用》阅读笔记

最新推荐文章于 2024-05-11 17:11:57 发布

刘克遵

最新推荐文章于 2024-05-11 17:11:57 发布

阅读量214

点赞数

文章标签： java简化笔记的方法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35728216/article/details/114850947

版权

题目：Simplify the Usage of Lexicon in Chinese NER

来源：ACL 2020

原文链接：

https://www.aclweb.org/anthology/2020.acl-main.528.pdf

转载请注明出处：学习ML的皮皮虾

Introduction

中文由于不存在自然的token之间的划分，在进行NER任务时往往需要先分词再做NER，但这样由于分词的误差可能导致实体边界识别错误。最近的一些工作在中文字符级别进行NER取得了不错的效果。

然而，在字符级别的NER模型中，词语的信息没法被完全利用。为了解决这一问题，Zhang and Yang (2018) 提出了Lattice-LSTM，保留所有能够匹配的单词信息，让模型选择具体使用哪一个。然而，本文作者认为Lattice-LSTM结构过于复杂(采用在非相邻字符中添加连接的方式，因此和LSTM的结构依赖较强)，难以在工业场景下应用。为此，作者提出了简化的思路，希望能在中文字符级别NER的模型中融入字典信息，同时能够轻松更改模型的基础结构(例如LSTM -> CNN、BERT)。本文的贡献：

提出了一个简单而有效的方法，将词典的信息融入到字符级别的中文NER中；

所提出的方法可以融入到不同的序列标注架构，同时可以融入到预训练语言模型例如BERT中。

Background

Softword Feature

Softword指的是在word embedding中融入分词信息，常用于在字符级中文模型中使模型具有感知分词的能力。其做法是为B、M、E、S增加一个额外的embedding矩阵，然后将其与字编码拼接，作为每个字的表示输入模型：

equation?tex=x_j%5Ec+%5Cleftarrow+%5Bx_j%5Ec%3B%5Cboldsymbol%7Be%7D%5E%7Bseg%7D%28seg%28c_j%29%29%5D+%5Ctag%7B1%7D

通常情况下，

equation?tex=seg%28c_j%29+%5Cin+%5C%7B%5Ctext%7BB%2C+M%2C+E%2C+S%7D+%5C%7D

Lattice-LSTM

Lattice-LSTM首先通过词表去匹配句子，当其中的一个子序列

equation?tex=%5C%7Bc_i%2C+%5Cdots%2C+c_j%5C%7D 匹配时，将为

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java简化笔记的方法_《简化中文NER中字典的使用》阅读笔记

题目：Simplify the Usage of Lexicon in Chinese NER来源：ACL 2020原文链接：https://www.aclweb.org/anthology/2020.acl-main.528.pdf转载请注明出处：学习ML的皮皮虾Introduction中文由于不存在自然的token之间的划分，在进行NER任务时往往需要先分词再做NER，但这样由于分词的误差可能...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。