Google实时文字翻译背后的技术

Google翻译最新增加的特性是字镜头(Word Lens),手机对着实际物体就可以实时翻译其中的文字。这个听着不那么新鲜,人工智能时代,这种演示好像已经很多了。但Google这次的绝技体现在:这种实时翻译是深度学习支持的,而且不联网的时候也可以工作,计算完全在手机上进行。这又是怎么做到的呢?

Google研究院的博客专门发表了一篇文章(要翻墙)介绍其中原理,这不是一篇学术论文,所以没有真正的技术细节,只能了解思路:

  • 首先,通过连续的色素块从背景中挖出文字。
  • 然后,用深度学习里的卷积神经网络识别这些文字。训练的时候,用了生成的数据集,模仿真实世界里有阴影、扭曲等的文字。之所以不用实际数据,是因为很难找到各种文字足够的样本。
  • 之后是查字典,匹配会允许一定的模糊性,比如将super认成5uper也能出结果。
  • 将结果用原文相同的字体和颜色显示。

为了在手机上也能工作,神经网络必须足够小,信息密度设定上限。因此挑战就是如何生成最高效的训练数据。其中优化和反复调试的工作量很大。此外对数学操作也要手工重度调优,使用手机处理器的SIMD指令,优化矩阵乘法可以适合各级缓存等等。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值