关闭

语音虚拟助理将引领下一代互联网人机交互

标签: 互联网终端手机产品android智能终端
486人阅读 评论(0) 收藏 举报

 

语音交互技术由来已久,但是一直未能在消费市场中掀起波澜。而自去年10月苹果的Siri横空出世之后,各大厂商纷纷在此领域开始发力,不愠不火的语音也又一次回到了聚光灯下。

“商标侵权案”并没有影响到业界对于苹果iPad的热度。近日,有消息称苹果将在3月的第一周内发布iPad 3,其中将会添加Siri语音功能,并在原有的英语、法语、德语基础上,新增对日语的支持。

另一方面,苹果的老对手谷歌也已经宣称正在开发类似Siri的语音控制技术——Majel,用来替代Android系统中现有的Voice Actions。

毫无疑问,以去年10月Siri发布为时间界限,沉寂多年的语音交互技术正在重新回到业界的关注中心。

语音“国战”来袭

全球市场上,新一代语音交互技术的竞争已经在苹果的带动下全面打响。在今年年初的CES展上就可以看到,语音技术已成为各大巨头争相投入的重点,智能手机、PC、智能电视、汽车等产品均引入了语音服务功能。

而在国内,从各大厂商争相推出智能语音服务来看,中文语音市场同样暗流涌动。“目前类似苹果Siri的产品还没推出中文版本。所以,谁能更快开发出支持中文识别的版本,谁就能占据中文语音市场的高地。”艾媒咨询集团董事长张毅认为。

近日,优视科技推出的最新UC浏览器8.2 Android版,已经可以通过语音发出多种控制指令。优视董事长兼CEO俞永福表示:“手机天生就有眼睛(摄像头)、嘴巴(麦克风)、耳朵(听筒)、位置(GPS),围绕这些特性,手机与人的人机交互模式会发生更多革命性的变化。”

记者在体验该产品时发现,在浏览页面过程中,只要口头说出“前进”、“后退”、“加入书签”即能实现相应操作;所有的语音识别都会被上传到云端进行智能语义解析,再回到终端执行,识别的成功率相当高。

2月16日,天猫祭出了“新花招”,网友只要对着麦克风发出“喵”的声音,就有可能获得5元、1000元的现金红包。据天猫的工作人员介绍,“喵一声”的背后其实是“Flash声纹比对技术”,是一种“娱乐版”的语音识别技术——声音通过终端麦克风搜集上传,再通过云端提取声纹与标准值进行对比,最后反馈给终端用户。“使用起来非常简单方便,与以前那些需要手动操作的活动相比,这个形式就省事多了。”一位参加过活动的用户告诉记者。

此外,腾讯、长虹、TCL、百度等国内厂商也纷纷推出了基于云端语音识别引擎的产品。

“设想一下,如果所有的人机交互操作都可以通过语音完成,这将大大减少文本输入和功能之间的频繁切换。随着产品的更新换代,更多的应用程序会支持语音交互,最终有可能把终端变为智能机器人。”汉语语音技术企业科大讯飞公司董事长刘庆峰认为,随着消费者对语音技术认识的加深,这个行业正在迎来蓬勃发展的时间窗口。

移动互联的契机

其实,语音技术在IT界并不是一个新鲜的话题。

早在2000年,比尔.盖茨就曾提出“未来10年是语音的时代”。而IBM、英特尔和摩托罗拉等巨头也在语音领域有过多年的技术投入。不过,由于缺乏成熟的应用产品,功能上仅依赖于识别终端上原有的语音指令,因此长期以来都不是消费市场上的重要概念;而在PC时代,人机交互方式被更为精确、快速的键盘与鼠标所控制,这同样导致了识别度低下的语音技术无法获得市场的青睐。

现在,移动互联的兴起,加之相关技术的逐渐成熟,给语音这种交互方式带来了全新的契机。

事实上,新一代语音交互技术的崛起,并不是因为在识别技术上实现了多大的突破,更关键的是将语音与智能终端以及云端后台进行了恰到好处的整合。“前端使用了语音识别以及语音合成技术;重点在后台,集成了网页搜索、知识计算、资料库、问答推荐等各种技术,弥补了过去语音技术单纯依赖前端命令的局限性。”手机行业资深人士海东分析道。

此外,随着智能手机的大量普及、群体时间的不断碎片化,个人计算中心移动化的趋势已经开始出现。对于移动终端来说,传统的键盘与鼠标并不能很好地满足用户的输入需求;语音则能解放用户的双手,交互的方式更加直观简便,相对来说能够获得更好的体验。未来,随着交互技术的不断演进以及使用者对人机交互的兴趣逐渐浓厚,手机、电脑等电子产品也不再仅仅是一种工具,而是逐步转变为类似科幻电影中的机器人角色——“人类说话,机器理解”,交流协作的人机交流模式正在逐步实现。

乔布斯生前谈到对Siri的展望时就曾说:“虚拟个人助理(VPA)代表着下一代互联网交互方式。它通过分析交互历史,得出个人偏好,来帮助人们解决具体的事务,并通过经验积累变得更好。”

由此可见, 未来语音服务的准确度和服务质量将取决于和使用者的磨合程度——使用的时间越长,后台捕捉到的用户个性化偏好就越多,也就意味着“私人助理”的价值是和使用时间成正比的。

不过,新一代语音交互技术在满足消费者新鲜感的同时,仍然存在着一些问题。首先,云端智能语音解析技术确实能够提升识别率,但由于多了“上传-解析-回馈”的步骤,因而对速度和网络流量的要求较高。尤其是在Wi-Fi和3G网络基础建设尚未成型的国内,这将会大幅削弱用户体验,影响到各种应用的实用性。

另一方面,语音交互始终面临着隐私的问题。在公开场合使用智能手机时,多数人并不愿意将自己的操作步骤或者想做的事情公之于众,这时语音交互就无法很好地保护个人隐私。

“虚拟个人助理(VPA)代表着下一代互联网交互方式。它通过分析交互历史,得出个人偏好,来帮助人们解决具体的事务,并通过经验积累变得更好。”——史蒂夫.乔布斯

原文出处:计世网

0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:636次
    • 积分:7
    • 等级:
    • 排名:千里之外
    • 原创:0篇
    • 转载:1篇
    • 译文:0篇
    • 评论:0条
    文章存档