搜狗AI事业部张博:不只翻译机,半年内将推数款智能硬件产品

543 篇文章 13 订阅

作者 | Just

毫无疑问,搜狗的大部分 AI 技术已嵌入到搜索和输入法这两大“拳头”产品 。

语音技术最大的一个落地产品当属搜狗输入法,它集成了搜狗的语音输入功能、语音翻译功能。而在搜索上,主打搜索直达功能背后的智能匹配技术可以让在用户提出问题后在首条就可直接给出最为匹配的答案,而不再单纯给出多种结果。

除了在双引擎上落地 AI 技术,他们现在发力 B 端政企领域,打造相应的 AI 解决方案,比如他们已为一些行业提供了定制的输入法以及智能客服产品。

当然,与其他诸多互联网巨头一样,搜狗也开始发力 AI 硬件。比如搜狗的翻译机,其中结合了语音识别功能、拍照翻译功能。翻译机只是个开始,搜狗 AI 事业部总经理张博告诉 AI科技大本营,搜狗接下来会推出几款不同的智能硬件,这些智能硬件都是搜狗 AI 技术的大集成、大载体,并且也会着力在 AI 硬件上做一些拓展,争取让硬件成为搜狗接下来收入的一个重要来源。

9 月初,在浪潮集团承办的 2018 人工智能计算大会(AICC )上,张博接受了 AI科技大本营的采访,讲述了搜狗在翻译机等 AI 硬件上的技术、产品认知和发展战略,以下为对话内容:

翻译机是做 AI 硬件的起点

:无论是翻译机还是会务翻译系统的离线翻译效果都不太好,与在线翻译相比存在着一些技术挑战主要是有哪些?

张博:离线翻译确实不好做,它在没有网络的情况下,不能调用云端的 API 推理接口,只能在终端实现所有计算。

我们知道,翻译机使用的其实是跟手机类似的 SoC 芯片,而在手机端上要实现一套完整的语音识别、语音合成、机器翻译和 OCR 这套流程,计算量是非常大的,这种情况下效果一定是比在线要差,因为数据、算法都会有一些裁减,包括本身的算力也会低一些。

有了专用 AI 芯片后,离线的翻译技术是不是更好?其实不是这样的,目前国内外主流的 AI 芯片公司第一步做的是与图像相关的 AI 加速,但没有去做跟语音和 NLP 相关的加速。语音这块其实是有一些坑的,比如所有 AI 芯片厂商目前都久攻不下 CNN。

那离线情况下怎样实现更好的结果?比如一代搜狗翻译机的手段是专注于旅行这个场景,其实就是我们把数据裁减成(与旅行相关的)数据集,就可以得到比较好的结果。

接下来其实就是拼算法能力,相当于在更小的空间复杂度和时间复杂度里去做更好的效果,这就看算法工程师的能力了,我们也可以做产学研的道路,跟学校做联合研发和攻关把这件事做好。

提问:现在翻译机的企业都强调说自己的神经网络翻译技术多么好,支持的语音翻译种类是最多、准确率最好。但这套说辞太泛了,关于具体实现条件和使用环境都好像没有一个比较统一的标准?

张博:这个问题问的很专业。目前大部分人工智能技术都没有一个标准的评测规范和手段,可能像人脸检测这种安防领域公安部做了一些标准,比如在一个什么样的条件下,输入多少张图片,这些图片中有多少男、女,多少戴眼镜。但以语音技术为核心的领域,目前国内没有什么权威的评测的机构。这个问题正在得到一步一步解决,中国人工智能产业发展联盟也在推动这种标准的建立,标准的建立有利于整个行业发展。  

:现在翻译机功能有离线翻译还有拍照翻译,甚至嵌入了语音助手等功能,对这款硬件产品来说,以后的发展走向是更多功能集于一身,还是说根据细分应用场景做出适当的硬件产品?

张博:这跟整个社会、整个用户的使用习惯有关系,我们知道移动互联网之所以能打败 PC 互联网,跟智能手机的普及有很大关系。在智能手机普及之前,大家也没有意识到手机竟然成了我们人生最关键的一部分。现在其实就已经有这样的争论,我们已经有手机了,为什么还要再去做一个翻译机。有翻译机了为什么还要加语音交互,你就会发现越做越大,越做越乱。

退一步想,如果拿一个翻译硬件来解决所有交互方式是不是最合理的?我觉得不一定,所以搜狗也在致力于解决这个问题,接下来会推出一系列新的爆款的智能硬件,很有可能就能解决交互的方便性,以及解决到底是再来一个翻译机还是再来一个手机的问题,结果就是可能不同的场景有不同的硬件。

提问:一代翻译机和翻译笔销量大概是多少?有道翻译蛋说卖了 10 万个。

张博:差不多也是这个数量,因为这个市场其实目前处于一个早期市场,大家的宣传还没有完全打开。

比智能音箱体验要好的智能硬件?

提问:刚刚您提到我们会做其他一些智能硬件,为什么在其他互联网企业推出智能音箱后搜狗到现在都没入坑

张博:搜狗在某些方面有特立独行的点,我们既然要发展智能硬件,肯定会做一些比智能音箱体验还要好的产品,因为智能音箱从根源上来讲毕竟还是跟风因素更多一些,大家可能看那个智能音箱很火,目前国内不说几十家也有上百家智能音箱产品了。但现在智能音箱的发展情况大家看起来不是那么乐观,太乱了。

提问:我们认为的不乐观具体指的是什么

张博:主要是这个产品感觉上用起来其实不一定那么自然、那么爽,它的使用场景有局限。因为毕竟这里面涉及到远场交互、方言这些东西并不一定能得到很好的解决,包括个人隐私也都存在一些问题。

提问:可以介绍一下新的智能硬件?

张博:这个不方便透露,但肯定是跟搜狗核心语音相关,其次它会大幅提升交互的方便性和自然性,翻译机提升的不够大,还可以更大。

提问:大概什么时候会发布?

张博:不超过半年时间。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
提供的源码资源涵盖了Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 适合毕业设计、课程设计作业。这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。 所有源码均经过严格测试,可以直接运行,可以放心下载使用。有任何使用问题欢迎随时与博主沟通,第一时间进行解答!
提供的源码资源涵盖了小程序应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 适合毕业设计、课程设计作业。这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。 所有源码均经过严格测试,可以直接运行,可以放心下载使用。有任何使用问题欢迎随时与博主沟通,第一时间进行解答!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值