机器翻译COMET评价标准

COMET是一种新的自动机器翻译评估框架,旨在更准确地测量和提升翻译质量。它使用神经网络学习预测人类对翻译质量的判断,与传统的基于词汇匹配的度量标准相比,能更好地捕捉语义相似性。COMET的出现有助于识别和改进机器翻译系统的性能,使高质量机器翻译更接近现实。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

发现COMET相关的资料很少,在这转下资料

转自 为什么我们建立COMET,一种新的自动机器翻译评估框架和度量--翻译技术速递

人类语言种类繁多,复杂多样,世界上有6900多种不同的语言。不同语言的微妙之处--从时态到声调再到习语--使得不同语种之间的翻译变成我们作为一个物种要面临的最大,最有趣的挑战之一。

这种翻译的复杂性也是为什么很多人一直认为机器翻译永远不会达到甚至接近人类质量翻译的原因。

我花了几十年时间研究自然语言处理。探索并开发了用于构建自动翻译系统以及用于评估其准确性和性能的计算算法和过程。这些经历让我明白,市场需要一个新的框架和度量来进行自动化机器翻译评估。

我们将始终需要人类在回路中帮助构建和训练机器翻译系统,识别和纠正错误,并将纠正反馈到用于训练和精炼它们的数据和算法中。但是我们最近的项目COMET(跨语言优化的翻译评估度量)提供了一种新的方法来测量和提高翻译质量。我们刚刚在11月的EMNLP-2020大会上提交了一篇描述我们创新性新工作的研究论文。我们在论文中的结果证明了彗星是目前最先进的。COMET最近还在2020年第五次机器翻译会议(WMT20)确认为最佳性能指标。

在这篇文章中,我将解释为什么这很重要,分享COMET是如何工作的,并让您相信高质量的MT不仅在理论上是可能的,而且比以往任何时候都更接近现实。

翻译质量重要,因为客户重要

MT的质量很重要,因为客户--也就是人--很重要。任何想要在2020年及以后生存和兴旺的企业都必须考虑如何用他们的母语接触和支持客户。毕竟,40%的顾客不会用其他语言购买。全球96%的客户表示,客户服务是他们选择品牌的关键因素,他们更喜欢和忠于他们的产品和服务。

无论人们说什么语言,这实现全球业务,为人们提供高质量的客户服务。我们的终极目标是?即弥合全球语言文化障碍,成为世界翻译层。

这听起来很崇高,但这是我们信仰的使命。

那么我们如何做到高质量的MT呢?它首先要有一种有效的方法来衡量任何给定翻译的准确性和质量。正如一句著名的格言所说:“你无法改进你无法衡量的东西。”

当然,衡量翻译质量的诸多挑战之一是语言具有歧义性和主观性。然而,这并不意味着翻译质量不能被衡量。

量化翻译准确性的一种常见方法是要求人类译者和双语使用者根据翻译错误的严重程度来识别和打分。

例如:

近年来出现了一个完善的翻译错误分类和评分框架,称为“多维质量度量(MQM)”。有了这样一个基本框架,我们就可以开始衡量翻译质量了,即使我们认识到语言本身是主观的,在翻译中通常没有一个正确的“黄金标准”。MQM对于检测和量化错误极为有用,但它需要训练有素的人类专家。因此,这是缓慢和昂贵的。这意味着它作为测量和指导现代高精度机器翻译系统训练和开发的工具的价值有限。为此,我们需要一个自动化的翻译质量度量,它可以生成与专家判断(如MQM)准确相关的质量分数。

当前机器翻译质量指标不足的地方

在过去的20多年里,已经开发了几种不同的自动化度量标准来衡量机器翻译质量,并取得了不同程度的成功。BLEU,chrF和METEOR(后者是我自己在大约16年前发明的)等广泛采用的度量已经得到了广泛的研究和改进。虽然这些度量在MT的早期阶段非常有用,但是现在这些度量在很大程度上已经过时,并且对于当前支持MT的人工智能技术来说价值有限。

那么他们在哪些方面做得不够呢?到目前为止,评估翻译质量的度量依赖于评估机器生成的翻译和人类生成的参考翻译之间的相似性。他们专注于基本的,词汇级的特性。这基本上意味着计算MT和参考译文之间匹配的字符,单词或短语的数量。然而,通过设计,它们很大程度上无法识别和捕捉词汇层面以外的语义相似性。

其根本问题在于,这些方法没有在足够的水平上捕捉到由机器翻译生成的译文与人类参考译文之间的语义相似性,以精确匹配人类专家(如MQM)的量化判断。现在我们的MT系统比以前好得多,这些以前的度量标准通常不再正确区分更好和更差的翻译,从而也不能正确区分更好和更差的翻译系统。

COMET的路径和我们为什么发布它

COMET是一种新的神经框架(即一组算法),用于训练和运行多语言MT评估模型。说它是一个新系统,可以帮助评估和预测许多不同语言的机器生成翻译的质量,这是一个很花哨的说法。

以下是它的新意和不同之处:COMET是为了学习预测人类对MT质量的判断而设计的。它通过使用神经系统首先将MT生成的译文,参考译文和源语言文本映射到神经意义表征中来实现这一目的。然后,它利用这些表示来学习预测质量分数,该质量分数被显式优化以与人类对翻译质量的判断相关联。

然后,得到的神经模型可以用作度量,以评估任何特定的MT引擎的质量,并自动化评估质量的过程(而不是要求专家对每一个翻译进行注释)。我们用周期性的人类多维质量度量(MQM)注释来补充这种方法,以验证质量,并随着时间的推移来确认和改进Comet的预测。正如我前面所说的,人类将永远处于循环中--这不是一件坏事!

COMET之前是不可能的。它利用了最近在大规模跨语言神经语言建模方面的突破,产生了不同于以往任何世界所见的多语言,适应性强的MT评估模型。

COMET还采用了一种独特的方法,将源文本和目标语言参考译文的信息结合起来,以更准确地预测翻译质量。在我们对COMET的评估过程中,我们发现我们用该框架训练的模型在它们与人类判断的相关性方面显著优于所有其他度量。COMET还可以进行适配和优化,以考虑到人类对MT质量的不同类型的判断(如MQM分数或编辑后距离)。

换句话说,我们越来越接近能够用机器和人类来准确判断翻译质量。

COMET最酷的一件事是,它可以帮助我们了解哪些MT模型工作得最好。即使是最近对MT评估的贡献也很难区分性能最高的系统。COMET可以准确地识别出更好的系统,即使在两个系统的性能非常相似的情况下也是如此。这将为不断改进MT提供一个非常有用的工具,因为我们现在可以很容易地区分模型并选择更好的模型。

相关git:GitHub - Unbabel/COMET: A Neural Framework for MT Evaluation

03-09
### Comet 实时通信技术原理 Comet 是一种用于实现在 Web 应用程序中实现服务器向客户端推送数据的技术集合,而不是单一的协议[^1]。传统 Web 请求模型遵循请求-响应模式,在这种模式下,客户端发起请求并等待来自服务器的响应;而 Comet 技术允许服务器主动将更新推送到客户端。 #### 主要实现方式 为了达到类似效果,通常采用两种主要策略: - **轮询 (Polling)** 客户端定期向服务器发出请求来检查是否有新的信息可用。这种方式简单易行但效率低下,因为它会在无新消息的情况下频繁消耗带宽资源[^2]。 - **长轮询 (Long Polling)** 或者称为挂起 I/O(Suspended I/O),以及流式传输(Streaming): - 当使用长轮询时,如果服务器没有立即返回任何内容,则保持连接打开直到有事件发生或者超时为止。 - 流式传输则是让服务器持续不断地发送数据给客户端而不关闭连接,直至特定条件满足才结束会话。 这两种方法都能有效减少不必要的网络流量,并提高用户体验质量(QoS)。 #### 协议栈支持 尽管 Comet 不依赖于特殊的底层协议,但它确实利用了 HTTP/HTTPS 这些常见的互联网传输层协议来进行操作。具体来说,它是在应用层面上对现有标准进行了创新性的运用,从而突破了原有架构对于双向交互能力的支持不足问题[^4]。 ```python import requests def long_poll(url, timeout=30): try: response = requests.get(url, stream=True, timeout=timeout) for line in response.iter_lines(): if line: print(f"Received data: {line.decode('utf-8')}") except Exception as e: print(e) if __name__ == "__main__": url = "http://example.com/comet" long_poll(url) ``` 此代码片段展示了如何通过 Python 使用 `requests` 库执行一次简单的长轮询请求。请注意这只是一个基础示例,实际应用场景可能更加复杂。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值