命名实体识别调研01

简介

命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理中走向实用化过程中占有重要地位。
一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体、时间、数字)、七小类(人名、地名、机构名、时间、日期、货币和百分比),其中人名、地名、组织机构是最常用到的三种。
命名实体的过程通常包括两部分:
1)实体边界识别;
2)确定实体类别(人名、地名、机构名或其他)
汉语命名实体主要难点:
1)实体边界,即分词
2)外国音译名和地名音译名两种特殊实体类型
3)不同命名实体的内部特征不同,模型很难统一刻画
传统的命名实体识别的主要技术方法分为:基于规则和词典的方法、基于统计的方法、二者混合的方法等

基于规则和词典的方法

该方法多才用语言学专家手工构造规则模版,选用特征包括统计信息、标点符号、关键字、指示词、方向词、位置词、中心词等方法,以模式和字符串相匹配为主要手段,这类系统大都依赖于知识库和词典的建立,都使用命名实体库,而且对每一个规则都赋予权值,当遇到规则冲突的时候,选择权值最高的规则来判断命名实体识别的类型。

基于统计的命名实体识别方法

基于统计的方法是利用人工标注的语料进行训练,基于统计机器学习的方法主要包括:隐马尔可夫模型、最大熵、决策树、基于转换的学习方法、推进方法、表决感知器方法、支持向量机、条件随机场等。其中CRF和HMM是目前评价较好的。

基于角色标注的中国人名自动识别



基于层叠隐马尔科夫的中文命名实体识别





基于混合方法

目前很多命名实体识别系统都才用混合方法:
1)统计学习方法之间或内部层叠融合
2)规则、词典和机器学习方法之间的融合
3)将各类模型、算法结合棋类,将前一级模型的结果作为下一级的训练数据,并用这些训练数据对模型进行训练,得到下一级模型。

另外,基于统计的方法对语料库的依赖很大,但是目前可用的语料比较少,少有的语料库有:香港城市大学语料库、微软亚洲研究院语料库、北京大学语料库、Wikipedia、HowNet等知识库

基于深层神经网络的方法

对于命名实体识别,目前较好的是Collobert提出的一个基于窗口的深层神经网络模型,其效果和性能超过了之前的传统算法。

模型

该模型从输入的句子中自动学习一系列抽象的特征,并通过后巷传播算法来训练模型参数。模型的整体架构如下图所示,【Ronan Collobert,Jason Weston,Léon Bottou,Michael Karlen,Koray Kavukcuoglu,and Pavel Kuksa。Natural language processing (almost) from scratch。The Journal of Machine Learning Research,12:2493–2537,2011】。第一层是取每个词的特征,第二层从词窗口中抽取特征,并将其看作一系列的局部和全局特征,从而区别传统的模型,最后一层和传统的经典的神经网络一样。
模型可以被抽象的理解描述成下图


下面给出模型的描述及推到,为了方便公式表示简洁,将模型简化成3层,简化模型中j、k、l分别是窗口层、隐藏层、输出层的节点下标,x表示输入的词向量,w和b1分别是第一层的权重和偏置量。f是激活函数,可以去双曲正切或sigmoid函数(这里取双曲正切),v和b2分别是隐藏层的权值和偏置量,η是激活函数,但最后一层取softmax,m是输出标签个数。

损失函数

如果把样本的分布看作多项分布,则容易写出样本联合概率的解析表达式,而后用极大似然估计求解。目标函数如下所示,n是样本量,h是隐藏层节点个数,c是窗口大小,d是词向量维度。

算法

模型的训练可以才用随机梯度下降的方法。这里一次只更新一个样本,所以木匾函数为下面公式的形式。
其中λ是学习率。下面给出每个参数的梯度公式
其中t是学习率,下面给出每个参数的梯度相识
随机梯度下降法中,参数学习率非常重要,学习率太大,模型会很快收敛,但精度不高,反之,精度高但是收敛慢。

词向量

Collobert的模型在没有对词向量预处理的情况下效果不如传统的方法,原因是可供训练的有标签的数据少,而词的聘书分布符合幂率分布,很多长尾的词得不到充分训练,不足获得足够信息。具体可以用word2vec

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值