语音虚拟助理将引领下一代互联网人机交互

转载 2012年03月23日 08:40:27

 

语音交互技术由来已久,但是一直未能在消费市场中掀起波澜。而自去年10月苹果的Siri横空出世之后,各大厂商纷纷在此领域开始发力,不愠不火的语音也又一次回到了聚光灯下。

“商标侵权案”并没有影响到业界对于苹果iPad的热度。近日,有消息称苹果将在3月的第一周内发布iPad 3,其中将会添加Siri语音功能,并在原有的英语、法语、德语基础上,新增对日语的支持。

另一方面,苹果的老对手谷歌也已经宣称正在开发类似Siri的语音控制技术——Majel,用来替代Android系统中现有的Voice Actions。

毫无疑问,以去年10月Siri发布为时间界限,沉寂多年的语音交互技术正在重新回到业界的关注中心。

语音“国战”来袭

全球市场上,新一代语音交互技术的竞争已经在苹果的带动下全面打响。在今年年初的CES展上就可以看到,语音技术已成为各大巨头争相投入的重点,智能手机、PC、智能电视、汽车等产品均引入了语音服务功能。

而在国内,从各大厂商争相推出智能语音服务来看,中文语音市场同样暗流涌动。“目前类似苹果Siri的产品还没推出中文版本。所以,谁能更快开发出支持中文识别的版本,谁就能占据中文语音市场的高地。”艾媒咨询集团董事长张毅认为。

近日,优视科技推出的最新UC浏览器8.2 Android版,已经可以通过语音发出多种控制指令。优视董事长兼CEO俞永福表示:“手机天生就有眼睛(摄像头)、嘴巴(麦克风)、耳朵(听筒)、位置(GPS),围绕这些特性,手机与人的人机交互模式会发生更多革命性的变化。”

记者在体验该产品时发现,在浏览页面过程中,只要口头说出“前进”、“后退”、“加入书签”即能实现相应操作;所有的语音识别都会被上传到云端进行智能语义解析,再回到终端执行,识别的成功率相当高。

2月16日,天猫祭出了“新花招”,网友只要对着麦克风发出“喵”的声音,就有可能获得5元、1000元的现金红包。据天猫的工作人员介绍,“喵一声”的背后其实是“Flash声纹比对技术”,是一种“娱乐版”的语音识别技术——声音通过终端麦克风搜集上传,再通过云端提取声纹与标准值进行对比,最后反馈给终端用户。“使用起来非常简单方便,与以前那些需要手动操作的活动相比,这个形式就省事多了。”一位参加过活动的用户告诉记者。

此外,腾讯、长虹、TCL、百度等国内厂商也纷纷推出了基于云端语音识别引擎的产品。

“设想一下,如果所有的人机交互操作都可以通过语音完成,这将大大减少文本输入和功能之间的频繁切换。随着产品的更新换代,更多的应用程序会支持语音交互,最终有可能把终端变为智能机器人。”汉语语音技术企业科大讯飞公司董事长刘庆峰认为,随着消费者对语音技术认识的加深,这个行业正在迎来蓬勃发展的时间窗口。

移动互联的契机

其实,语音技术在IT界并不是一个新鲜的话题。

早在2000年,比尔.盖茨就曾提出“未来10年是语音的时代”。而IBM、英特尔和摩托罗拉等巨头也在语音领域有过多年的技术投入。不过,由于缺乏成熟的应用产品,功能上仅依赖于识别终端上原有的语音指令,因此长期以来都不是消费市场上的重要概念;而在PC时代,人机交互方式被更为精确、快速的键盘与鼠标所控制,这同样导致了识别度低下的语音技术无法获得市场的青睐。

现在,移动互联的兴起,加之相关技术的逐渐成熟,给语音这种交互方式带来了全新的契机。

事实上,新一代语音交互技术的崛起,并不是因为在识别技术上实现了多大的突破,更关键的是将语音与智能终端以及云端后台进行了恰到好处的整合。“前端使用了语音识别以及语音合成技术;重点在后台,集成了网页搜索、知识计算、资料库、问答推荐等各种技术,弥补了过去语音技术单纯依赖前端命令的局限性。”手机行业资深人士海东分析道。

此外,随着智能手机的大量普及、群体时间的不断碎片化,个人计算中心移动化的趋势已经开始出现。对于移动终端来说,传统的键盘与鼠标并不能很好地满足用户的输入需求;语音则能解放用户的双手,交互的方式更加直观简便,相对来说能够获得更好的体验。未来,随着交互技术的不断演进以及使用者对人机交互的兴趣逐渐浓厚,手机、电脑等电子产品也不再仅仅是一种工具,而是逐步转变为类似科幻电影中的机器人角色——“人类说话,机器理解”,交流协作的人机交流模式正在逐步实现。

乔布斯生前谈到对Siri的展望时就曾说:“虚拟个人助理(VPA)代表着下一代互联网交互方式。它通过分析交互历史,得出个人偏好,来帮助人们解决具体的事务,并通过经验积累变得更好。”

由此可见, 未来语音服务的准确度和服务质量将取决于和使用者的磨合程度——使用的时间越长,后台捕捉到的用户个性化偏好就越多,也就意味着“私人助理”的价值是和使用时间成正比的。

不过,新一代语音交互技术在满足消费者新鲜感的同时,仍然存在着一些问题。首先,云端智能语音解析技术确实能够提升识别率,但由于多了“上传-解析-回馈”的步骤,因而对速度和网络流量的要求较高。尤其是在Wi-Fi和3G网络基础建设尚未成型的国内,这将会大幅削弱用户体验,影响到各种应用的实用性。

另一方面,语音交互始终面临着隐私的问题。在公开场合使用智能手机时,多数人并不愿意将自己的操作步骤或者想做的事情公之于众,这时语音交互就无法很好地保护个人隐私。

“虚拟个人助理(VPA)代表着下一代互联网交互方式。它通过分析交互历史,得出个人偏好,来帮助人们解决具体的事务,并通过经验积累变得更好。”——史蒂夫.乔布斯

原文出处:计世网

相关文章推荐

《虚拟现实-引领未来的人机交互革命》

书籍介绍: 本书作者为王寒、卿伟龙、王赵翔、蓝天共同著作(据书本介绍是国内和硅谷的极客)。 今年早些时候,我蹭同学的Samsung Gear,感觉十分震撼:Holy shit,This is the ...

语音识别关键技术公开,人机交互这么做就对了!

转载自: http://www.edn-cn.com/news/article/201608241715 对于识别来说,首先要保障的是远场环境下的识别率,除了前面提到的麦克风阵列解决了前端声...

真心觉得基于语音、touch等自然的人机交互,对图像进行parsing,在未来一段时间会很火

2014年3月27日程明明3 条评论 真心觉得基于语音、touch等自然的人机交互,对图像进行parsing,在未来一段时间会很火。刚刚接到ACM Trans. on Graph...
  • lhbbzh
  • lhbbzh
  • 2015年01月02日 23:35
  • 758

马赓宇 - 虚拟现实与人机交互技术

  • 2015年10月20日 16:16
  • 3.04MB
  • 下载

李航:机器学习新动向 从人机交互中学习

华为诺亚方舟实验室首席科学家李航发表主题演讲。 华为诺亚方舟实验室首席科学家李航   李航表示,到目前为止,人工智能其他领域研究,我们发现最有力的手段可能还是要基于数据,通过机器学习这...

虚拟现实中的人机交互

  • 2008年10月09日 15:18
  • 1.07MB
  • 下载

Apple Watch人机交互指南:UI设计基础--App 剖析

AppleWatch必须与用户的iPhone配合使用来运行应用程序。 界面类型 Watchapps支持两种导航方法: Hierarchical.该类型与iOS中的导航类型相匹配,最适...

Cocos2dx-3.x触摸事件之实现人机交互(二)

键盘和鼠标事件,用重写虚函数和Lambda函数这两种方法分别实现

Enable Viacam – 通过头部动作来控制鼠标的神奇软件,科幻般的人机交互体验

我们都习惯用鼠标、触控板或触摸屏来操作电脑,但你有没想过,如果现在就可以像科幻电影一样,只要用头部和眼睛动一下就可以操作电脑呢是不是碉堡了?! Enable Viacam(eViacam) 是一...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:语音虚拟助理将引领下一代互联网人机交互
举报原因:
原因补充:

(最多只允许输入30个字)