汉语命名实体识别训练语料自动构建

一、基于双语平行语料的命名实体训练数据生成

1.1 利用现有的高质量的英语命名实体识别系统在篇章级对齐的双语语料的英语端识别出英文命名实体,然后通过词对齐信息将英文命名实体边界和标签映射到汉语端,生成汉语的命名实体标注候选,最后过滤生成汉语命名实体训练语料。


(1) 双语对齐:包括句对齐和词对齐

a、使用Champollion对篇章级对齐的英汉双语语料进行句子级对齐

b、使用GIZA++工具进行自动的词对齐(中->英和英->中两个方向对齐)

c、使用grow-diag-final算法来合并结果形成多对多的对齐结果

d、利用Standord NER进行英语命名实体识别(CRF实现)

(2) 英文命名实体识别:使用现有的英语命名是识别系统,完成英语端的命名实体识别

(3) 汉语命名实体候选生成:将英文命名实体的边界和类型,映射到汉语端,形成汉语命名实体候选;

a、将英文命名实体结果的边界和类别通过词对齐信息映射到汉语端,形成汉语命名实体的候选语料。

b、由1-1,1-2,1-3可以看出(1-3)国家篮球协会是一个词

(4) 语料筛选:对汉语命名实体候选进行过滤,生成高质量的语料

a、当汉语命名实体候选中对应到了英语命名实体的边界之外,则标为非命名实体。

b、基于置信度过滤

上述图中所示是两种典型的映射错误示例

其中用来计算英语命名实体识别系统对某一个英语实体Ne识别的置信度。剩余部分用来计算词对齐的置信度。B(Nc)表示汉语命名实体候选Nc的边界,即Nc最左边和最右边的两个词。e表示英语单词,w表示汉语词语。A(w)表示所有和w相关的对齐对。p(<e,w>)表示一个词对齐对(e,w)的对齐概率。

选则汉语端命名实体候选最左和最右两个词,分别计算与它们相关的词对齐概率的平均值,然后在将二者相乘。

c、根据命名实体列表的修正策略

即根据命名实体候选列表,计算频率及平均置信度,然后设置阈值

二、基于依存树库的名词复合短语识别语料构建

名词符合短语=限定语+核心词
核心词→名词|符号串|动词
限定语→名词|简称|符号串|动词|数词|量词|形容词
按照这个定义,“中国足球联赛”、“北京101中学”、“自然语言处理”、“第四次中东战事”等都属于名词复合短语;还有一些动词也可以作为名词复合短语的组成成分,比如“中国驻俄罗斯大使馆”中的“驻”、“未成年人保护法”中的“保护”等;同一个词义有名词和动词不同形式,因此增加了符合短语的识别难度。核心词一般在出现在短语的末尾位置,比如“哈尔滨工业大学”,“大学”为该短语的核心词。限定词一般有多个词组成,但是核心词一般只有一个。
根据以上这些特点,基于一些规则将汉语依存树库中的名词符合短语标出。汉语依存树是人工标注了句子内句子之间关系的语料库,包括修饰关系、主谓关系、动宾关系等。
规则如下:
1)名词符合短语为连续串,两个短语不能重叠或嵌套
2)通常两个名词符合短语不直接相连
3)大部分核心词为名词,也有少量符号串和动词,形容词、副词、助词等
4)通常名词符合短语内部词语由修饰依存关系相连

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值