用飞桨做命名实体识别,手把手教你实现经典模型 BiGRU + CRF

本文介绍了使用飞桨(PaddlePaddle)实现命名实体识别(NER)的经典模型BiGRU+CRF。首先讲解了RNN和GRU的基础知识,接着阐述了CRF在序列标注中的作用,然后提出了BIO标注的建模思路,并通过飞桨详细展示了BiGRU+CRF模型的实现过程。
摘要由CSDN通过智能技术生成

命名实体识别(Named Entity Recognition,NER)是 NLP 几个经典任务之一,通俗易懂的来说,就是从一段文本中抽取出需求的关键词,如地名,人名等。

 

640?wx_fmt=png

 

如上图所示,Google、IBM、Baidu 这些都是企业名、Chinese、U.S. 都是地名。就科学研究来说,命名实体是非常通用的技术,类似任务型对话中的槽位识别(Slot Filling)、基础语言学中的语义角色标注(Semantic RoleLabelling)都变相地使用了命名实体识别的技术;而就工业应用而言,命名实体其实就是序列标注(SequentialTagging),是除分类外最值得信赖和应用最广的技术,例如智能客服、网络文本分析,关键词提取等。

 

下面我们先带您了解一些 Gated RNN 和 CRF 的背景知识,然后再教您一步一步用 飞桨(PaddlePaddle)实现一个命名实体任务。另外,我们采用经典的 CoNLL 数据集。

 

Part-1:RNN 基础知识

 

循环神经网络(Recurrent Neural Networks,RNN)是有效建模有时序特征输入的方式。它的原理实际上非常简单,可以被以下简单的张量公式建模:

                                                

640?wx_fmt=png

 

其中函数 f, g 是自定的,可以非线性,也可以就是简单的线性变换,比较常用的是:

 

640?wx_fmt=png

                                                       

虽然理论上 RNN 能建模无限长的序列,但因为很多数值计算(如梯度弥散、过拟合等)的原因致使RNN 实际能收容的长

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值