在语言之间翻译文本
本教程系列将涵盖txtai的主要用例,这是一个 AI 驱动的语义搜索平台。该系列的每章都有相关代码,可也可以在colab 中使用。
colab 地址
本文涵盖由 Hugging Face 模型支持的机器翻译。通过云服务实现的机器翻译质量取得了长足的进步,并产生了高质量的结果。本文展示了 Hugging Face 的模型如何为开发人员提供本地机器翻译的合理替代方案。
安装依赖
安装txtai
和所有依赖项。由于本文使用的是可选管道,因此我们需要安装管道 extras 包。
pip install txtai[pipeline]
创建翻译实例
Translation 实例是在语言之间翻译文本的主要入口点。管道将翻译文本抽象为一行调用!
管道具有检测输入语言的逻辑,加载处理从源语言到目标语言的翻译并返回结果的相关模型。翻译管道还具有内置逻辑来处理将大文本块拆分为模型可以处理的较小部分。
from txtai.pipeline import Translation
# Create translation model
translate = Translation()
翻译文本
下面的示例显示了如何将文本从英语翻译成西班牙语。该文本然后被翻译回英文。
translation = translate("This is a test translation into Spanish", "es")
translation
Esta es una traducción de prueba al español
translate(translation, "en")
This is a test translation into Spanish
一次通话即可翻译多种语言
以下部分将单个英语句子翻译成 5 种不同的语言。然后将结果传递给单个翻译调用以翻译回英语。管道检测每种输入语言并能够加载相关的翻译模型。
languages = ["fr", "es", "de", "hi", "ja"]
translations = [translate("The sky is blue, the stars are far", language) for language in languages]
english = translate(translations, "en")
for x, text in enumerate(translations):
print("Original Language: %s" % languages[x])
print("Translation: %s" % text)
print("Back to English: %s" % english[x])
print()
Original Language: fr
Translation: Le ciel est bleu, les étoiles sont loin
Back to English: The sky is blue, the stars are far away
Original Language: es
Translation: El cielo es azul, las estrellas están lejos.
Back to English: The sky is blue, the stars are far away.
Original Language: de
Translation: Der Himmel ist blau, die Sterne sind weit
Back to English: The sky is blue, the stars are wide
Original Language: hi
Translation: आकाश नीला है, तारे दूर हैं
Back to English: Sky is blue, stars are away
Original Language: ja
Translation: 天は青い、星は遠い。
Back to English: The heavens are blue and the stars are far away.
整体翻译质量非常高。机器翻译在过去几年取得了巨大的飞跃。如果首选在本地服务器上进行翻译,这些模型为开发人员提供了云翻译服务的可靠替代方案。
参考
https://dev.to/neuml/tutorial-series-on-txtai-ibg