https://zhuanlan.zhihu.com/p/51843485
一、简介
在评估平行语料库的质量时,研究语料库的三个特征,即1)语言/翻译质量,2)单语质量,3)语料库多样性。 基于规则和基于模型的方法都适用于对并行句子对进行评分。
语料库清理任务分为三个部分:
- 高质量的并行句子对应该具有,其目标句子精确地转换为源句子的特性,反之亦然。通过量化翻译质量(也称为双语分数)和句子对的准确性去做。
- 评估平行语料库的目标和/或源语义的质量。
- 我们需要关注所有领域,以便可以广泛使用最终的MT系统。 因此,在对并行结构进行二次采样时,应对多样性进行评估。
最后,将并行语料库的三个特征组合起来构建最终的干净语料库
二、平行句子评分方法
2.1,Bilingual Quality Evaluation
包括一个嘈杂的语料库过滤规则、两种翻译质量评估方法:(1)基于单词对齐的双语评分和(2)基于Bitoken CNN分类器的双语评分
Rule-based Filtering
- 句子长度比。源句子/目标句子。以tokens或者单词为单位。比例范围[0.4,2.5]
- 编辑距离。编辑距离小,则源、目标较相似,这对翻译系统是不好的。所以过滤掉距离距离小于2,或编辑距离比小于0.1的句子对。编辑