实体对齐 算法_中英命名实体识别及对齐中的中文分词优化 论文笔记

1.计算命名实体词汇对齐的置信度:对一个中英双语句对,中文在初始分词的基础上进行命名实体识别。

2.分词工具:采用中科院分词工具ICTCLAS、Stanford分词工具对中文句子进行分词,其中Stanford分词工具分别采用基于(Chinese Treebank,CTB)和(Peking university,PKU)两种数据集上训练的模型。

3. 命名实体识别工具:对于上述的三种中文分词结果,均采用Stanford命名实体识别工具(分类器:chinese.misc.distsim.crf.ser)进行初始中文命名实体识别。英文句子采用Stanford命名实体识别工具(分类器:english.conll.4class.distsim.crf.ser)进行英文命名实体识别。

4.对齐置信度的评估方法:对一个中英双语句对,中文在初始分词的基础上进行命名实体识别,再再最大熵模型的基础上,根据中英命名实体翻译的一些特点加入多个特征函数进行对齐置信度的计算。(其中包含了4个特征:音译特征、意译特征、字对齐特征、同现特征)

5.音译特征:通过将汉字转换为拼音,首先判断英文单词是否为中文汉字拼音字符串的字串或者完全一致,如果不符合则只计算普通话拼音字符串与英文单词的相似度。由于音译过程中再使源语言与目标语言发音接近的基础上,还会根据目标语言的发音习惯调整音译单元。切分是在英文单词音节划分的基础上,根据中文音译习惯进行基于音节首字母匹配的调整。(具体对齐概率采用IBM Model 1再中英音译语料库中训练得到)

6.意译特征:利用GIZA++工具产生的IBM Model 1、Model 4以及HMM三个模型的双向词汇翻译概率来计算意译特征。

7.字对齐特征:将中英平行语料中的中文句子按字切开,利用IBM Model 1 可以计算得到中文汉字和英文单词的翻译概率。

8.共现特征:如果中文命名实体和英文命名实体再整个语料中总是再平行句对中出现,那么这两个词汇在一定程度上就有互译的可能性。其值可以用中英实体词汇再同一平行句对出现的次数除以中文实体词汇再语料库中出现的次数再加上同一平行句对出现的次数除以英文实体词汇再语料库中出现的次数计算。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值