阿里巴巴WMT18平行语料过滤 Alibaba Submission to the WMT18 Parallel Corpus Filtering Task

https://zhuanlan.zhihu.com/p/51843485

 

一、简介

在评估平行语料库的质量时,研究语料库的三个特征,即1)语言/翻译质量,2)单语质量,3)语料库多样性。 基于规则和基于模型的方法都适用于对并行句子对进行评分。

语料库清理任务分为三个部分:

  1. 高质量的并行句子对应该具有,其目标句子精确地转换为源句子的特性,反之亦然。通过量化翻译质量(也称为双语分数)和句子对的准确性去做。
  2. 评估平行语料库的目标和/或源语义的质量。
  3. 我们需要关注所有领域,以便可以广泛使用最终的MT系统。 因此,在对并行结构进行二次采样时,应对多样性进行评估。

最后,将并行语料库的三个特征组合起来构建最终的干净语料库

 

二、平行句子评分方法

2.1,Bilingual Quality Evaluation

包括一个嘈杂的语料库过滤规则、两种翻译质量评估方法:(1)基于单词对齐的双语评分和(2)基于Bitoken CNN分类器的双语评分

Rule-based Filtering

  • 句子长度比。源句子/目标句子。以tokens或者单词为单位。比例范围[0.4,2.5]
  • 编辑距离。编辑距离小,则源、目标较相似,这对翻译系统是不好的。所以过滤掉距离距离小于2,或编辑距离比小于0.1的句子对。编辑
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值