人机交互的未来

 前言

      


Siri 促进了语音交互的发展,也使得人们对语音交互充满了期望。但经过这么几年,我们发现了一个很尴尬的场面,就是语音直观上并没有达到预期。这有三个方面的原因:

社会习惯

很少有人傻乎乎的对着机器说话。而要成为一个好的助理,"察言观色"才是王道,声音只是一个确认。举个例子,我坐在沙发上准备看电视,如果要科幻一点,最好的方式应该是:

系统捕获到用户坐在沙发的动作以及坐姿,判定用户可能要看电视,然后询问用户是否要开电视,用户点头或者说话确认,这个时候执行打开电视的动作。

这里面,大部分还是主动观察(视觉动作),然后助手询问确认,最后完成实际动作。这个也是符合我们实际人与人交互的逻辑的。

自然语言的难度   

自然语言发展了这么多年,其实真没什么突破。我们只是能够把声音转化为文字,或者把文字转化为声音,除此之外,无他。NLP工程师大体做的也是苦力活,没有一种通用的处理逻辑。因为要机器理解语言太难了,机器就是没有脑子的。难点除了涉及到上下文语境,还有一个无法克服的点就是人和人之间是有默契的,其他人都看不懂,听不明白,更何况机器。

视觉技术的发展

深度学习最成功的地方其实就是图片。我们现在不仅仅可以做到比人更好对图片物体识别定位分类,我们可以识别多个物体,还能把他们圈出来。我们不仅仅能够识别图片,还能创造以假乱真的图片,能让模糊的图片清楚,让被打了马赛克的地方自动还原回来,我们还可以让计算机看图说话(虽然我们不理解人类说的话,但是我们确实可以让计算机说话,而且我们人类能够听的懂机器说的话,反过来则很难)。最近Google 已经具备从视频里做上面操作的能力了,这首先被利用在Youtube里,机器已经能观察视频里的大部分信息了。

案例

亚马逊现在开了一个超市:“无人超市”。恩 无人超市很久就有了,但是以前的无人超市其实是把店员的职责转嫁到用户身上,用户需要自己跑去柜台自己买单。但是人性是不可靠的,所以没办法普及。现在亚马逊是真的做到了,你进入超市后,自动激活你的亚马逊App,然后你跑到货柜钱,拿了一个东西,这个时候摄像头会捕获到你拿了什么,记录下来。当然,你退回去了他也能观察到。最后当你走出超市时,亚马逊的APP会自动结账并且将账单发给你。

这个案例核心的就是视觉技术了。

后话

机器需要去观察人类,然后主动和人类沟通,人类只要确定或者否定就好。这样就能跨过自然语言的难题,而且也更为自然,因为人类是老板,只要说Yes或者No就好。深度学习让机器对图像识别技术达到了质的飞越,使得人机交互的真正未来已经浮现在眼前了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值