KikaGO:一条数据线的AI之旅

原创 2018年01月15日 12:37:00

李根 发自 Vegas 
量子位 报道 | 公众号 QbitAI

万万没想到,一条数据线火了。

在2018 CES现场,这根线成为关注的热点之一,它被华尔街日报评价“Best of CES 2018”,还拿到了智能家居、智能车载、智能应用软件以及科技促进生活等4项2018 CES创新大奖。

不说你也猜到了。AI时代下,这肯定不会是一条普普通通的手机数据线。

那它有何不同之处?可以先看看这段网上流传挺广的视频。

nj8nexaeznybm7uu!videoplay

KikaGO

这个数据线,真名叫做KikaGO。

除了给手机充电,KikaGO还能以语音交互的方式,帮助用户完成很多操作。包括接打电话、即时通信软件的收发信息、导航以及播放音乐。

更为特别之处在于,KikaGO能在非常嘈杂的驾驶环境中,准确识别用户的语音指令,而且通过声纹识别技术,可以只听令于自己的“主人”。

其实KikaGO不只是一个数据线,更是一个“全语音车载助手”。在CES现场,Kika对量子位表示,这个产品软硬一体打磨的挑战并不小。

△ KikaGO外观

但从硬件上,KikaGO为什么选择这种方案?

最主要的原因还是车内噪音较大,驾驶环境下,手机与司机之间的距离约有50cm。要在这个距离与手机语音交互,需要比较大的声音。

为了解决这个问题,KikaGO选择在常见的数据充电线上,创造性的加装了2个朝向相反的收音麦克风。因为要解决降噪的问题,至少需要两路音频信号。

数据线上还有一个芯片,用来进行信号转换和增益。随后,这些声学信号传送到手机端的KikaGO应用中,继续完成语音识别、语义理解等程序。

用户的指令,会被KikaGO进一步推送到第三方App中。据介绍,有了KikaGO的协助,司机在驾驶全程中,操作手机只需动嘴、不需动手。

△ KikaGO场景应用图

如果你想试用KikaGO,还得英文好才行。但可能你不知道,Kika起源于中国。

这家全员都以英文名片示人的公司,目前公司在北京和硅谷设立双总部,分别在印度和台北设立了研发中心。

Kika也不是一家刚创立的公司。早在2014年就推出了首款输入法产品Kika Keyboard,还在2015年拿到了“Google Play顶尖开发者”称号。

不过由于主打海外,国内用户直接感知接触有限。

目前,这家来自中国的公司在海外进入了140多个国家,支持173种语言,全球用户数量达4亿,月活6000多万。

也就是说,Kika做的事情跟国内的搜狗类似。这或许能解释Kika能够推出KikaGO的原因,用户、数据量、语音输入、人机交互等等之前的储备,都为现在做好了准备。

全语音解决方案

KikaGO背后到底有什么技术挑战?量子位从Kika CTO姚从磊博士口中获得了答案。

首先最直接的挑战是口音。与国内语音交互中的方言类似,英语场景也会面临口音问题。姚从磊说,通行的解决方法是收集更大规模的口音数据,然后进行训练优化模型,或者用更少的数据,但利用更多的深度神经网络,实现更好的效果。

在具体解决中,Kika两条腿走路。一边是靠数据底子,因为输入法有强大的用户基础,打造了一个千万量级的语音和文本数据集进行模型训练;另一边也在不断优化技术,同时与约翰霍普金斯大学进行合作,既做半监督的语音声学模型训练,也把输入法中的上下文信息理解应用到语言模型中,大幅提高语音识别的准确度。

其次还有理解。区别于文字输入,语音交互中缺失了标点符号、emoji等反映人类情感的信息,于是容易造成理解偏差,甚至谬以千里。

在情感理解方面,Kika也做了两手方案。

一手方案是构建情感数据集,涵盖各种情绪表达,在用户输入语音和emoji系列之间找到联系,利用深度学习网络训练,该数据集规模上接近亿级,主要来自Kika用户输入的匿名化脱敏数据。

虽然也曾经尝试过Twitter上的公开数据,但最后发现用户场景和日常IM聊天还不尽相似,数据效果不算好。

另一手方案是通过技术功能完善用户体验。比如支持用户用语音编辑、修正已经输入内容,降低用户使用语音输入的门槛。

此外,软硬件结合方面也有交叉整合带来的问题。

比如数据线本身功能是充电,但作为语音方案硬件载体,还需要考虑数据信号传输方面的效果。

还有安卓手机如何通过充电口,完成充电线与App之间声音信号流传输联动,且不干扰其他App,个中问题也不少。

最后还有车型号本身,大车、小车、SUV等不同空间的车,对于收音效果可能都会有影响,如何做到不同空间距离的识别效果最佳,以及车速较快、开窗、车内音乐播放等场景下的降噪表现,都是一道道需要亲自打磨测试才能解决的难题。

这也是Kika首次推出硬件相关产品,CTO姚从磊坦言:吃了不少苦头,趟过了不少明坑暗坑。在软件技术上准备好后,又经历了6个月的时间打磨产品。

不过,从当前市场反馈来看,无论是CES 4项大奖的奖励,还是社交媒体上用户的刷屏反馈,不仅击中了用户痛点,也是种瓜得瓜。

实际上,对于Kika这样的公司而言,生长壮大于移动互联网浪潮中,现在又面临大数据基础上的AI机遇,进入新领域、诞生新物种,也属于情理之中。

而且对于机器学习出身的姚从磊而言,深度学习为核心的AI革命,还提供了一种提升产品能力、完善产品体验的方法,是一把得心应手的锤子。

对于技术研发人员而言,可以通过问题(钉子)寻找,运用得力大锤解决问题。

这位Kika CTO甚至将此称为:AI思维。

AI思维

姚从磊举例说,对于输入法为代表的人机交互产品来说,核心标准是:全、准,快三个方面,这三大挑战在深度学习革命之前并没有解决得很好。

但如果基于AI技术,“全”方面可以通过多媒体内容库中的索引、分析和推荐,用户从输入感知层面能感到词库更全;而“准”方面,识别和理解方面更是大幅度突破,是60分到90分的提升;“快”的问题上也能抛开传统统计模型的缺点,对联想词的准确度有更精准的提升,甚至是数倍的提升。

除了核心产品本身的能力提升,姚从磊也在内部鼓励团队到产品线的全链条中寻找“钉子”,然后试着用AI这把得心应手的工具提升用户体验。

或者也能在核心发展AI引擎的主线上,不断拓展边界,推出之前没机会尝试的产品,比如当前推出的KikaGO.

姚从磊透露说,基于之前技术和数据的积累,现在Kika已经建立起了自己的AI技术库,将围绕输入法引擎(Engine Alps)、语音引擎(Engine Appalachian),以及内容推荐引擎(Engine Andes)推出更多AI落地方案/产品。

△ Kika的AI技术库

但也不是没有挑战,比如供不应求的AI人才。

不过这位Kika CTO回应说:并不是非常担心,即便竞争激烈,但Kika在数据、技术提升方面的实力会日益彰显,并且Kika也形成了吸引和培养AI人才的成熟机制。

“如果你的某一个技术提升就能让数千万人的生活更美好,想想就很激动人心。”

OMT

最后补充一句,这款拿了一堆奖的KikaGO,还没有正式发售,连售价也没有确定。而且主要的销售市场也是海外并非国内。

TO B是一个更重要的方向,基于场景方面的考虑,KikaGO也在寻求更多的合作伙伴,也许未来Uber、Lyft的司机都会用上这款产品。

— 完 —

【UI】第二周 AI软件基础与字体设计

-
  • 1970年01月01日 08:00

一条数据的HBase之旅,简明HBase入门教程-开篇

这是HBase入门系列的第1篇文章,介绍HBase的数据模型、适用场景、集群关键角色、建表流程以及所涉及的HBase基础概念,本文内容基于HBase 2.0 beta2版本。本文既适用于HBase新手...
  • nosqlnotes
  • nosqlnotes
  • 2018-03-21 22:21:04
  • 4841

【树链剖分】【点权】

1036: [ZJOI2008]树的统计CountTime Limit: 10 Sec Memory Limit: 162 MB Submit: 7568 Solved: 3109 [Subm...
  • FZHvampire
  • FZHvampire
  • 2015-05-20 16:33:35
  • 824

AICon2018-《AI驱动下的移动输入革新之路》-姚从磊

  • 2018年01月18日 18:14
  • 27.14MB
  • 下载

[HLOI 2015]Magic

Magic时间限制 2S 内存限制 128M题目描述给定n个点m条边的图,每个点有一个点权ai,两点之间的边的边权为两点点权的最小公倍数。 从1号点走到n号点所需要的花费为路径上边权的最大值。 问...
  • slongle_amazing
  • slongle_amazing
  • 2015-07-11 10:47:50
  • 489

追剧数据线,一条能看电影的数据线

追剧数据线,海量大片,一切尽在掌中. 追剧数据线是每个喜爱看电视者的福音,有了追剧数据线,从此看电影无需会员,万部大片,别人看不到的你都有,影片无广告,每天更新,新剧不断,不花一分钱,无需越狱,不需...
  • sevtev
  • sevtev
  • 2017-09-04 16:14:00
  • 251

【树形DP】 CodeForces 294E Shaass the Great

原题直通车:CodeForces 294E Shaass the Great 题意: 树中有n个点,从n-1条边中去除一条边,再构建一条相同长度的边重新构成一棵树      (去除的边和构造的边可能...
  • du489380262
  • du489380262
  • 2013-08-17 23:55:35
  • 735

I2C总线简介

  • 2015年08月20日 21:51
  • 360KB
  • 下载

南邮 OJ 1407 线段覆盖

线段覆盖 时间限制(普通/Java) : 1000 MS/ 3000 MS          运行内存限制 : 65536 KByte 总提交 : 219            测试通过 : ...
  • changshu1
  • changshu1
  • 2015-08-05 15:18:59
  • 222

poj 2125 二部图最小点权覆盖

题意:N个点M条边的有向图,给出如下两种操作。删除点I的所有出边,代价是AI。删除点J的所有入边,代价是BI。求最后删除图中所有的边的最小代价。 思路:如果不考虑权值,就是一个二分图的最小点覆盖问题...
  • dumeichen
  • dumeichen
  • 2014-12-12 14:23:38
  • 322
收藏助手
不良信息举报
您举报文章:KikaGO:一条数据线的AI之旅
举报原因:
原因补充:

(最多只允许输入30个字)