不识字也能翻译：谷歌AI直接用音频翻音频，不用先转文本

weixin_34388207

于 2019-04-17 09:34:08 发布

阅读量1.7k

点赞数

文章标签：人工智能

原文链接：http://blog.51cto.com/14278102/2379865

版权

　　在我们的世界里，谷歌翻译是这样的：

　　一直被调戏的翻译娘

　　在谷歌的世界里，谷歌翻译是这样的：

　　西语英语：你不问，就不会知道了

　　请注意，视频里的文字只是为了便于观赏，才存在的。

　　而AI在翻译语音的时候，不把西语的音频转成文本，也不生成任何英语的文本，直接产出了英文音频。和标答一字不差。

　　这是谷歌团队的最新成果，想法大胆而有效。

　　仿佛在双语环境里出生的小朋友，还没识字，就能把爸爸说的话翻译给妈妈。

　　怎么会不用看文本?

　　这个翻译模型，名字叫做S2ST(全称Speech-to-Speech Translation) 。

　　不看文本只靠听，背后的原理是把一种语音的声谱图(Spectrogram) ，映射到另一种语音的声谱图上。

　　那么，声谱图什么样?

　　下图就是 (西语) “你好么，嘿，我是威廉，你怎么样啊?”的声谱图。

　　横轴是时间，纵轴是Mel频率

　　然后是目标，英文的声谱图。

　　AI只要从大量的成对数据里，学懂英文和西语的声谱映射关系，就算不识别人类说的是什么字，依然能当上翻译员。

　　当然，一个完整的翻译模型，并没有上面说的这么简单，它由三个部分组成：

　　一是基于注意力的序列到序列 (seq2seq) 神经网络。就是下图的蓝色部分，它负责生成目标声谱图，这只是第一步，还不是音频;

　　二是一个声码器(Vocoder) 。下图的红色部分，它会把声谱图转换成时域波形 (Time-Domain Waveforms) ，这已经是带有时间顺序的正经声波了;

　　三是个可选的附加功能，原本说话人的编码器。绿色部分，经过它的加工，翻译出的英文，和原本的西语，听上去就像同一个人发出来的。

　　当然，蓝色部分还是主角。

　　里面的编码器 (左) ，是8层双向LSTM堆起来的;而××× (Spectrogram Decoder) ，团队说要选4-6层LSTM的，深一点效果比较好。

　　成功了

　　模型是用人类自发的对话 (比如打电话的语音) 端到端训练出来的，一起来看看成果吧。

　　第一题，短语。“克兰菲尔德大学的新员工”，翻译和标答一字不差。

　　原文：nuevos empleados de Cranfield University

　　标答：New hires at Cranfield University郑州×××医院：http://mobile.ytyy029.com/

　　第二题，句子。“看看这个国家上下，你看到了什么”，依然和标答一致。

　　原文：Por lo tanto, mirar alrededor del país y lo que ves.

　　标答：So, look around the country and whatdoyou see?

　　对手表现怎样?借助转换文本来翻译的AI，缺了个“do”字：

　　第三题，带从句的句子。“我的表 (堂) 兄弟姐妹们小的时候，我照顾过他们也教过他们，有过一些这样的经历。”

　　原文：Tengo cierta experiencia en cuidar y ense?ar a mis primos cuando eran jóvenes.

　　标答：I’ve got some experience in looking after and teaching my cousins when they were young.

　　照顾(TakingCare of) 有缺失，其他部分对比标答是完整的。

　　再看对手，“照顾 (Care) ”和“教 (Teach) ”都用了动词原形，语法不是很严格：

　　肉眼看过之后，再让S2ST和先转换文本再翻译的AI对比一下BLEU分。

　　在“Conversational”大数据集上，S2ST的BLEU分比对手差了6分：42.7比48.7。

转载于:https://blog.51cto.com/14278102/2379865

weixin_34388207

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。