巨头纷纷押注的智能翻译机,会是第一款成功的消费级AI硬件吗?

到了今天,已经很少有人再提人工智能音箱了。使用率低、售价跳水、缺乏销售数据……我们不能武断地说智能音箱凉了,但的确不少所谓的AI企业的硬件梦碎了。


相对于一些盲目涌入AI的公司,一些科技公司似乎找到了另外一条硬件路——翻译机。科大讯飞推出了晓译翻译机、谷歌推出了实时翻译耳机,搜狗也在最近推出了搜狗旅行翻译宝和搜狗速记翻译笔。


开始呈现扎堆趋势的智能翻译机,是否会颠覆智能音箱成为下一个AI硬件浪潮?


打败大魔王,AI消费级硬件

当务之急是走出手机的阴影


我们可以先从智能音箱的前车之鉴来看,智能翻译机最该避开哪些坑。


除了产品质量良莠不齐等等弊端之外,智能音箱最大的问题是没有一项功能超出手机功能的子集。播放音乐、语音交互、传达命令,这些功能其实都能在手机上很好的完成,让智能音箱的使用率不断被压榨。



其实不光是智能音箱,现在开始搭载移动AI芯片的手机简直是AI消费级硬件界的大魔王,让很多产品毫无用武之地。智能翻译机也是一样,翻译App已经能满足大部分的消费级翻译需求,翻译机一方面要赶上翻译App文字、图片多种媒介适用的特点,另一方面还要保证离线使用、操作简单和续航时间长,从而获得与手机之间的差异化优势。这很可能会成为让智能翻译机不会重蹈智能音箱覆辙的重要优势。


三次迭代,什么才是

智能翻译机的最终形态?


其实这是一个最浅显道理,智能翻译机的产品迭代的方向也一直朝着替代和超越翻译App发展。


第一代智能翻译机应该是以科大讯飞的晓译为代表,主打随说随译。这一代产品其实是最为尴尬的:虽然有强大的自然语言处理技术,可以较为准确的进行翻译工作,但很多功能还需连接手机借助网络才能使用。



这类作为手机外置产品的翻译机和手机中的翻译App比起来几乎毫无竞争力,除了晓译之外,同类产品还有有道翻译蛋、全球译等等。虽然到后来第一代智能翻译机都增加了离线语言的种类,但比起App的拍照翻译等功能,还是差了一截。


谷歌推出的实时翻译耳机Pixel Buds可以被看做第二代智能翻译机,这类翻译机常常以耳机的形态出现,有些需要WiFi/蓝牙与手机连接。同类产品还有IBM Watson和Lingmo推出的Translate One2One。实时翻译耳机相比单纯的翻译机有着更丰富的功能,除了用作翻译还可以当成蓝牙耳机使用,并且翻译速度更快,在双方都配置耳机时可以很好的进行拾音和语音生成,方便交流。但大多数翻译耳机还是作为手机外设存在,自身并不具备真正的翻译功能,甚至谷歌的Pixel Buds只能配适谷歌Pixel手机。



而搜狗推出的搜狗旅行翻译宝,可以说是第三代智能翻译机了。除了提高翻译速度和准确率外,还加入了OCR技术,让用户可以进行实景翻译,并且摆脱了翻译APP对网络连接的依赖。


硬件与软件的胶着战,

第三代智能翻译机赢了吗?


在短短的两三年之间,市面上的智能翻译机就已经进行了这么多次迭代,产品形态和功能也都发生了不小的变化。同样的,翻译App也在不断进行升级,从一开始的“词典”发展到可以整句翻译、语音翻译和今天的拍照翻译。你追我赶之中,这一次第三代智能翻译机走到翻译App前面了吗?


首先看来,搜狗旅行翻译宝终于做到了摆脱对手机和网络的依赖,在离线状态下也可以完成翻译工作。做到这一步,就是拿下了最关键的赛点。在旅游场景中,国外、交通工具上都有可能没有网络信号,在商务场景中,有些场合也不适合使用手机。这些需要交流,却无法使用手机和网络的地方,为智能翻译机打开了不可替代的强需求市场,可以说离线功能是智能翻译机的根深立命之本。


除了离线场景之外,智能翻译机一直没法超越的是翻译App多样化的翻译方式。借助手机自身多传感器的特性,翻译App可以对文字、图片、语音多种媒介进行翻译,实用性更高。现在加入了拍照翻译的第三代智能翻译机终于扳回一城,并且在语音翻译的拾音功能上,搜狗旅行翻译宝有着更专业的双麦克风阵列和降噪算法,利用语音增强技术放大原音,即使在噪音环境下也不会有误听误译的情况出现。



从价格来看,搜狗这次推出了两款产品,一款是应用于旅游场景的旅行翻译宝,另一款是应用于会议、课堂场景的速记翻译笔,两款产品的售价分别是1498元和299元。好在智能翻译机的售价没有随着产品迭代水涨船高,这一售价还是相对友好的。除了单纯的售卖模式,很多旅行社也开始提供共享租赁服务,或许未来智能翻译机会通过这一契机走进人们的生活。


高准入门槛和优质的参与者,

或许才是智能翻译机的王牌


智能翻译机不会成为智能音箱的另一个原因,就是这一行业较高的准入门槛。


和智能音箱简单的接收语音信号、下达指令不同,智能翻译机的实时离线翻译对机器翻译、语音识别、图像识别、语音生成甚至知识图谱技术都有很高的要求。



就拿在海外餐馆点菜使用搜狗旅行翻译宝这一简单的场景来说,就需要拍下照片进行图像识别,找到其中的文字并翻译成中文,和他人对话时,智能翻译机需要通过定向波束扫描规避噪音,准确拾音并进行翻译。在翻译过程中,还需要拥有相关领域的知识图谱,才能准确的捕捉到俚语、术语、双关语等等人类专属的文字游戏。而想要这一切都在离线状态下进行,还需要强大的压缩技术,让模型得以存储终端中。


所以在智能翻译机领域很难见到类似智能音箱的盛况:各种相关的和不相关的企业都来赶风口。目前智能翻译机领域的参与者,基本有三类。


第一类是专业从事AI技术开发的企业,如科大讯飞和IBM Waston。第二类是拥有巨大用户规模,通过自身产品,像输入法、搜索等业务在知识图谱和语音技术上建起壁垒的企业,比如搜狗、谷歌。第三类,是一些垂直研发翻译产品的企业,像有道云、全球译等等。较高的准入门槛对智能翻译机形成了一种保护,竞争对手都各有优势,不至于出品太过劣质的产品让市场对整个品类失望。


智能音箱留给我们最大的反思大概就是,宁愿在泥土中多蛰伏一会儿,也不要开出畸形的花。如今智能翻译机已经开始破土而出,愿它能结下AI消费硬件的第一枚果实。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
俗话说:十赌九输。因为大多数赌局的背后都藏有阴谋。不过也不尽然,有些赌局背后藏有的是:“阳谋”。   有一种赌局是这样的:桌子上放六个匣子,编号是1至6。多位参与者(以下称玩家)可以把任意数量的钱在某个编号的匣子上。所有玩家都下后,庄家同时掷出3个骰子(骰子上的数字都是1至6)。输赢规则如下:   1. 若某一个骰子上的数字与玩家所的匣子号相同,则玩家拿回自己的,庄家按他的数目赔付(即1比1的赔率)。   2. 若有两个骰子上的数字与玩家所的匣子号相同,则玩家拿回自己的,庄家按他的数目的2倍赔付(即1比2的赔率)。   3. 若三个骰子上的数字都与玩家所的匣子号相同,则玩家拿回自己的,庄家按他的数目的6倍赔付(即1比6的赔率)。   4. 若玩家所匣子号与某个骰子示数乘积等于另外两个骰子示数的乘积,则玩家拿回自己的,庄家也不赔付(流局)。   5. 若以上规则有同时满足者,玩家可以选择对自己最有利的规则。规则执行后,则庄家收获所有匣子上剩余的。   乍一看起来,好像规则对玩家有利,庄家吃亏。但经过大量实战,发现局面很难说,于是怀疑是否庄家做了手脚,庄家则十分爽快地说:可以由玩家提供骰子,甚至也可以由玩家来投掷骰子。   你的任务是:通过编写一段Java代码模拟该过程。模拟50万次,假定只有1个玩家,他每次的都是1元钱,其的匣子号是随的。再假定庄家有足够的资金用于赔付。最后计算出庄家的盈率(庄家盈利金额/总金额)
02-07

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值