人机交互的未来

最新推荐文章于 2023-08-06 23:39:03 发布

祝威廉

最新推荐文章于 2023-08-06 23:39:03 发布

阅读量620

点赞数

本文链接：https://blog.csdn.net/allwefantasy/article/details/103879447

版权

前言

。

Siri 促进了语音交互的发展，也使得人们对语音交互充满了期望。但经过这么几年，我们发现了一个很尴尬的场面，就是语音直观上并没有达到预期。这有三个方面的原因：

社会习惯

很少有人傻乎乎的对着机器说话。而要成为一个好的助理，"察言观色"才是王道，声音只是一个确认。举个例子，我坐在沙发上准备看电视，如果要科幻一点，最好的方式应该是：

系统捕获到用户坐在沙发的动作以及坐姿，判定用户可能要看电视，然后询问用户是否要开电视，用户点头或者说话确认，这个时候执行打开电视的动作。

这里面，大部分还是主动观察（视觉动作），然后助手询问确认，最后完成实际动作。这个也是符合我们实际人与人交互的逻辑的。

自然语言的难度

自然语言发展了这么多年，其实真没什么突破。我们只是能够把声音转化为文字，或者把文字转化为声音，除此之外，无他。NLP工程师大体做的也是苦力活，没有一种通用的处理逻辑。因为要机器理解语言太难了，机器就是没有脑子的。难点除了涉及到上下文语境，还有一个无法克服的点就是人和人之间是有默契的，其他人都看不懂，听不明白，更何况机器。

视觉技术的发展

深度学习最成功的地方其实就是图片。我们现在不仅仅可以做到比人更好对图片物体识别定位分类，我们可以识别多个物体，还能把他们圈出来。我们不仅仅能够识别图片，还能创造以假乱真的图片，能让模糊的图片清楚，让被打了马赛克的地方自动还原回来，我们还可以让计算机看图说话（虽然我们不理解人类说的话，但是我们确实可以让计算机说话，而且我们人类能够听的懂机器说的话，反过来则很难）。最近Google 已经具备从视频里做上面操作的能力了，这首先被利用在Youtube里，机器已经能观察视频里的大部分信息了。

案例

亚马逊现在开了一个超市：“无人超市”。恩无人超市很久就有了，但是以前的无人超市其实是把店员的职责转嫁到用户身上，用户需要自己跑去柜台自己买单。但是人性是不可靠的，所以没办法普及。现在亚马逊是真的做到了，你进入超市后，自动激活你的亚马逊App,然后你跑到货柜钱，拿了一个东西，这个时候摄像头会捕获到你拿了什么，记录下来。当然，你退回去了他也能观察到。最后当你走出超市时，亚马逊的APP会自动结账并且将账单发给你。

这个案例核心的就是视觉技术了。

后话

机器需要去观察人类，然后主动和人类沟通，人类只要确定或者否定就好。这样就能跨过自然语言的难题，而且也更为自然，因为人类是老板，只要说Yes或者No就好。深度学习让机器对图像识别技术达到了质的飞越，使得人机交互的真正未来已经浮现在眼前了。