一、基于双语平行语料的命名实体训练数据生成
1.1 利用现有的高质量的英语命名实体识别系统在篇章级对齐的双语语料的英语端识别出英文命名实体,然后通过词对齐信息将英文命名实体边界和标签映射到汉语端,生成汉语的命名实体标注候选,最后过滤生成汉语命名实体训练语料。
(1) 双语对齐:包括句对齐和词对齐
a、使用Champollion对篇章级对齐的英汉双语语料进行句子级对齐
b、使用GIZA++工具进行自动的词对齐(中->英和英->中两个方向对齐)
c、使用grow-diag-final算法来合并结果形成多对多的对齐结果
d、利用Standord NER进行英语命名实体识别(CRF实现)
(2) 英文命名实体识别:使用现有的英语命名是识别系统,完成英语端的命名实体识别
(3) 汉语命名实体候选生成:将英文命名实体的边界和类型,映射到汉语端,形成汉语命名实体候选;
a、将英文命名实体结果的边界和类别通过词对齐信息映射到汉语端,形成汉语命名实体的候选语料。
b、由1-1,1-2,1-3可以看出(1-3)国家篮球协会是一个词
(4) 语料筛选:对汉语命名实体候选进行过滤,生成高质量的语料
a、当汉语命名实体候选中对应到了英语命名实体的边界之外,则标为非命名实体。
b、基于置信度过滤
上述图中所示是两种典型的映射错误示例
其中,用来计算英语命名实体识别系统对某一个英语实体Ne识别的置信度。剩余部分用来计算词对齐的置信度。B(Nc)表示汉语命名实体候选Nc的边界,即Nc最左边和最右边的两个词。e表示英语单词,w表示汉语词语。A(w)表示所有和w相关的对齐对。p(<e,w>)表示一个词对齐对(e,w)的对齐概率。
选则汉语端命名实体候选最左和最右两个词,分别计算与它们相关的词对齐概率的平均值,然后在将二者相乘。
c、根据命名实体列表的修正策略
即根据命名实体候选列表,计算频率及平均置信度,然后设置阈值
二、基于依存树库的名词复合短语识别语料构建