Google 翻译是许多人日常生活中的一个很好的工具,但很少有人知道它实际上是几种工具的组合。
为了在日常生活中实现语音到语音的翻译,通常需要首先将语音识别为文本(语音到文本,STT),然后使用机器学习将文本传输到城市的目标语言,最后阅读文本“Text-to”-Speech,TTS)。这三个过程实际上需要时间来进行计算,每个步骤都有机会犯错,这使得最终的翻译完成。谷歌最近宣布了一种新的Translatotron翻译模型,除了直接的声音到语音翻译外,还可以节省翻译时间并保留原始发言人的声音。
Google正在展示一种新的语音转语音翻译流程,该流程希望打破传统的三阶段瀑布流程:长时间,每一步的累积错误都会导致整体翻译问题。 Translatotron提出了一种分段到网络的网络模型来处理数据,保持说话者的声音和节奏,并提高翻译内容的准确性。
根据Google Research的fun88淘搜网研究,新翻译演算模型的翻译准确性仍然无法与传统的瀑布流程相媲美。但是新型号具有更快操作的优点,并且避免机器发出语音时发出的钝机声。