人物 | 当我们在谈论语音识别时,我们在谈些什么?——知乎达人、CMU博士生王赟...

原标题:人物 | 当我们在谈论语音识别时,我们在谈些什么?——知乎达人、CMU博士生王赟

8d09489813f5475183db1ad29bbf453e.jpeg

王赟:本科毕业于清华大学电子工程系,当前是卡内基梅隆大学(CMU)语言技术研究所(LTI)的博士生,研究方向为语音识别。在业余时间里,他是一名语言爱好者,通过自学掌握了六门外语(英日韩西法越)。此外,他还活跃在知乎社区中,为语言文化、算法、机器学习等多个话题贡献了上千条高质量回答。

1

“早上好,先生。现在刚刚过7点,马里布(Malibu)气温22摄氏度,多云。海水的温度和高度非常适合冲浪。”

“贾维斯(Jarvis),我想新建一个项目,叫‘马克2号’。”

“要存到公司的中心资料库里吗?”

“贾维斯,启用头盔显示器,把家里的环境设置调出来。”

“好的。”

f52578bd0a2c4676a905a486a139bbc4.jpeg

图片来源网络

以上内容出自漫威电影《钢铁侠(Iron Man)》,托尼·史塔克(Tony Stark)和他的高智能、人性化的AI管家“Jarvis”的对话。在电影中,“Jarvis”能独立处理日常事务、管理“马克军团”,并以幽默的方式回(吐)应(槽)托尼的指令。或许这并不是人工智能的最终形态,可它已经“很好很强大”了。

虽说是想象,但“Jarvis”的出现意味着人工智能领域能够突破技术层面。在整合了语音识别、计算机视觉、自然语言理解等基础技能后,不断深化自我学习和数据处理能力,形成一个具备“人格”的系统。

0e34dac939fe4d61acb0a0bd7b66add4.jpeg

21d71e6a416c40458189220f868bbf96.png

图片来源于网络

db793d5a642a47c98014c5d2a4fbc473.jpeg

走出电影银幕,“Jarvis”也在线下成为了现实。就在去年,科技大佬马克·扎克伯格(Mark Zuckerberg)亲自演示了“Jarvis”系统,通过应用程序来控制家中设备。这个项目有点儿像进化了的亚马逊“Alexa”——可以开关灯、烤面包、根据个人喜好播放音乐,甚至唤醒女儿Max准备上中文课。

目前,“Jarvis”系统还存在技术上的难题,无法实现量产。通过语音和智能系统联结家居,实现科技服务于生活,这既是人类的目标,也是包括王赟在内的众多科技工程师们正在做的事情。

22b90df3c6d04226a3b588845ef4a409.gif

2

王赟在2013年开始大规模使用知乎,相当于是社区建立后的第二批用户。在这个以“分享知识、经验和见解”为主的讨论型线上社区里,王赟贡献了2800条回答、参与了800多次公共编辑、写下60多篇文章,和社区用户分享自己学习6门外语(英、日、韩、西、法、越南语)的心得体会,以及与语言文化、语音识别、机器学习和算法等话题有关的信息。

在线下,王赟还有另一个身份——卡内基梅隆大学(Carnegie Mellon University, CMU)的博士生。算算时间,今年已经是他待在卡梅语言技术研究所(Language Technology Institute, LTI)的第7个年头了。

5b1c63c6538a4f76aa27099c178cf70f.jpeg

“来美之前我申请的是硕士项目(MA),要在斯坦福(Stanford)和卡梅(CMU)两所学校中做选择。”王赟回忆起刚拿到申请结果的时候,“经过咨询后,我了解到CMU的MA和PhD类似,要一边上课一边做研究,也有奖学金拿。就选了CMU,来到了匹兹堡。”

硕士学业结束后,王赟选择留在CMU继续深造。在此后读博过程中,他的研究主要和语音识别有关。简单地说,就是把某一段声音识别出来,变成文字。最常见的应用是iPhone Siri助手,它能够识别用户的语音指令(关键词),并根据指令执行相应的命令。

但王赟的研究不仅如此,他还要识别“语音以外的声音”——音频事件检测。比如,一段在野外拍摄的视频,其中出现了许多动物的叫声。通过音频识别处理后,摄像师可以辨识出视频中具体出现了哪些动物,并且把这些动物的名称编入关键信息,方便观众搜索。

从“关键词”识别到“语音以外的声音”辨识,难度不断加深,数据量不够是当前一项挑战。包括Google, Facebook在内的大公司正在积极收集数据,并且进行人工标注。可若想“音频事件检测”领域能够进一步发展,还需要更多数据、更强网络作为支撑。在王赟看来,这个过程至少要五年。

10b1108347924361926d83b9de96e875.gif

3

语音识别如何落地,如何成为商业项目。相信这是很多人都非常关心的问题。在王赟看来,语音识别在科研阶段的技术已经基本成熟了,同时,许多公司在引领该领域的发展。例如,Google凭借着足够多的机器和数据,在普通语音识别保持领先;而Amazon则在远距离语音识别有较好的表现。

随时技术的发展,人们的生活变得更复杂。而生活和科技的关系或许会由过去的“需求驱动技术革新”的模式,会逐渐变为多种模式并存,其中也包括——“科技(产品)创造出新的需求”。当我们捧着第一部诺基亚手机玩贪吃蛇时,难以想象十几年后,竟然能够通过语音来指挥手机做更多事情:发送消息、查阅天气和路况等等。

ba848c72aaf240bda22e9769a3df0728.jpeg

图片来源于网络

眼下,人们并没有强烈的意识,认为自己迫切的需要“Alexa”或“Jarvis”来打理日常起居。可人工智能管家以及便利化的生活还是相当诱人的,谁不希望在劳累了一天后,能窝在沙发里打个盹,偷偷小懒?在未来的某一天,科幻大片里的高科技说不定就成真了。

当科技发展到一定水平,研究者手中有充足的信息和数据(用户调查),很有可能就由这批人描绘出未来生活的模样。相信那时,想象力将成为创新之源,借由这一双翅膀,人类能够飞得更高,走得更远。

7fcf1a07fb8d4321a30facc279d70ddd.gif

4

最后,采访话题落到了人工智能和人类社会的关系上。前者是否会威胁甚至颠覆传统人类社会,这是一个久盛不衰的话题。硅谷大佬们也纷纷亮出各自立场,Facebook创办人扎克伯格看好人工智能的未来,而马斯克、霍金等人则是“人工智能威胁论”的忠实拥趸。

在王赟看来,人工智能自然是一把双刃剑。“人工智能有威胁,但不见得会在短期内体现出来。”从技术发展的角度来说,目前,人工智能面临一道很大的坎——从“弱”到“强”。二者的主要区别在于,“弱”意味着只能干一件事儿。比如,语音软件只能识别语音,AlphaGo只能下棋。“强”则能做很多,能够像人类一样去“体验”和“理解”,就像钢铁侠的智能管家“Jarvis”,或是美国影星施瓦辛格(Arnold Schwarzenegger)在电影《终结者(The Terminator)》中饰演的“T-800”。

6e6134ad5bd6434c8bd8ada61ed455d8.jpeg

732b070fbc6d4c948658ad3575789612.jpeg

图片来源于网络

现在,若是给人工智能一个任务,它能在这个任务上做得好比人好;但它暂时无法胜任“多管齐下”任务组合。目前,神经网络方面的研究并不能完全解释人或电脑是如何思考的;人们熟悉的机器学习更多依赖“数据”,而非“亲身体验”。若有一天,人类的经验能够用机器能懂的方式表达出来,或让机器和人一起生活、收集生活中的一手体验,人工智或许能越过这道“坎”。

3e1b6ad0f5024db08fa702da322db2b1.jpeg

友好匹兹堡是由总部位于匹兹堡市的Idea Foundry有限公司于2013年底发起的。友好匹兹堡的战略目标是将匹兹堡教育、旅游、商贸投资以及房地产移民等机遇介绍给中国市场,并为匹兹堡吸纳资源发展当地社会经济。该战略获得宾州政府、地方政府及地区经济发展战略伙伴的支持,合作伙伴包括宾州政府国际业务拓展部,匹兹堡市长办公室,匹兹堡区域联盟,和匹兹堡旅游局。

官方网站:friendlypittsburgh.com,邮箱:info@friendlypittsburgh.com返回搜狐,查看更多

责任编辑:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值