多模态交互(非常详细)零基础入门到精通,收藏这一篇就够了

269 篇文章 11 订阅
195 篇文章 10 订阅

_引言:__"模态”俗称感官,单模态指单个感官,“多模态”即两个以上感官的融合,多模态交互指人通过不同模态通道内的信息合并统一,感知与物体(包括人、机器、动物等)进行交互的行为。_原研哉“五感设计”:即没有像视觉一样带来的冲击力,却具有内心唤醒般的吸引力,加强对人方便性和情感性的追求,使感知效果能更加趋向于真实的感受,也为多模态理论提供了理论依据和实践基础。

01

概念

concept

在和一个智能系统交互的时候,存在双方相互理解的过程,也就是双方都通过各种通道去表达,然后也都通过各种通道去分析对方的意图。多模态是站在智能系统一方来表达,它更多强调的是智能系统通过多个通道去捕获人和环境的信息,或者通过多个通道去呈现信息。

从多个通道呈现信息并非是个新鲜概念,比如我们的电影就是同时有画面和声音的多通道呈现的。手机反馈要让用户通过视觉、听觉和触觉三个反馈通道去感知,这些也是多通道呈现信息的交互。

02

多模态创新设计

Multimodal Innovative Design

(1)非接触式交互

非接触式交互(Touchless UI,简称 TUI)顾名思义就是指人不需要去触碰键盘、鼠标或者屏幕,直接通过身体运动、隔空手势、眼动凝视等手段完成与设备的交互。

非接触式交互的技术有很多种,有的需要普通的可见光摄像头,有的是需要感知深度的摄像头,有的是 3D 立体摄像头,有的是利用了毫米波雷达技术的摄像头,还有些是穿戴在人身上的设备,比如手套、手表、护腕等等。技术肯定是不断在演进的,但作用都是殊途同归。

和触屏交互不同,非接触式交互最近几年才在不同场合被热点关注(包括手机、VR/AR、智能驾驶等)。对任何交互而言,它的适用场景都非常重要。

(2)非接触式交互疲劳监测

你在很多科幻电影比如《钢铁侠》中,都会看到隔空手势的设计。

隔空手势有一点被经常忽视掉,就是大猩猩臂效应(大猩猩臂是指人们根本无法在手臂往外展开的姿势下长时间操作,这是灵长类动物身体结构的限制)。如果你的隔空手势需要长时间抬起整个手臂进行,那这就是一种不符合人体工学、效率低并且极容易疲惫的交互手势,并不是一种理想的设计。理想的手势设计应该如操作鼠标一般,不需要大幅度的动作就可以轻松完成任务。比如下图左半部分的动作整个手臂放在椅子扶手上,手的动作稳定,而且运动过程放松,不至于劳累。但是右半部分就不同了,相信人操作一会儿胳膊就会酸了。

(3)手势识别设计受技术的约束

手势识别也分为静态手势识别和动态手势识别,前者技术需求较为简单,但是要求手势交互要有停顿,不能够流畅、自然地识别,后者对摄像头和智能系统图像实时动态捕获精度和分析准确度的要求更高,需要能够识别运动的方向、速度以及加速度。

接下来是肌电信号来实现手势识别。这个需要一些非侵入式的穿戴设备来配合(比如手臂或腿部上戴上带着传感器的绑带或者特殊的手套),这些设备再通过蓝牙方式连接智能系统。肌电信号有其特殊的优点,它不依赖于摄像头,有着最大的移动自由度,也不必在乎遮挡问题。对于设计师而言,手势发挥的空间更大,不过缺点就是需要穿戴在用户身上。

接着是毫米波雷达技术,这种技术完美规避大猩猩手臂的那种大幅度动作交互设计,能够对人体和手势的轻微的动作作出精准的跟踪,已经不仅仅是骨骼绑定的那种粗狂的颗粒度了。设计师可以进行更加细腻的手势设计,比如下图,我们通过搓捏拇指和食指的指腹就能够灵活调整手表的时间了。

03

多模态多通道

ZMultimodal multi-channel

如果我们要在一个严格的意义上来说,非接触式交互其实也只是单类型的模态交互,并不是真正的多模态交互。多通道获取信息不仅仅是指切换不同的通道来获取数据,也指同时从多个通道获取信息,并且能够针对上述信息进行进一步的整合,更加精准地获取用户的意图。比如智能系统通过计算机视觉技术感知到了用户正在盯着屏幕上的某个 App,然后嘴巴说出“打开”就直接打开了这个应用。这个过程其实就是两个通道同时在配合理解用户的意图的过程,这就是多模态交互。

再举一个例子,假设一个电视节目增加字幕,仅仅是把通过录音设备采集到的语音数据通过语音识别算法转换为文字,那这只是一种单模态的场景。但是如果也同时通过图像中的唇语读取技术来修正语音中的干扰及背景噪音,即视频通道的输入加上语音通道的输入进行双重的信息采集,两个一起做校对性的文字转换,这就是多模态交互了。

监测用户是否疲劳驾驶也是一样的。我们通过同时检测用户的生物电信号(比如呼吸和心跳速度)、驾驶行为(比如是否出现驾驶者驾驶状况突变、违规异常,或者突然紧握方向盘等情况),还有用户面部状况的疲劳特征(比如是否闭眼、是否眼神游离、是否眼睑下垂、是否伴随不停瞌睡或者打哈欠的情况),综合判断疲劳状况后再给予针对性的交互输出和应对,这就是多模态交互。

素材来源:

1.https://mp.weixin.qq.com/s/Q_BZgPH5sgPfvZSYojKndQ

2.https://mp.weixin.qq.com/s/NiB79nWKTLXMYUC5oO9j_A

黑客&网络安全如何学习

今天只要你给我的文章点赞,我私藏的网安学习资料一样免费共享给你们,来看看有哪些东西。

1.学习路线图

攻击和防守要学的东西也不少,具体要学的东西我都写在了上面的路线图,如果你能学完它们,你去就业和接私活完全没有问题。

2.视频教程

网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己录的网安视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。

内容涵盖了网络安全法学习、网络安全运营等保测评、渗透测试基础、漏洞详解、计算机基础知识等,都是网络安全入门必知必会的学习内容。

(都打包成一块的了,不能一一展开,总共300多集)

因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

CSDN大礼包:《黑客&网络安全入门&进阶学习资源包》免费分享

3.技术文档和电子书

技术文档也是我自己整理的,包括我参加大型网安行动、CTF和挖SRC漏洞的经验和技术要点,电子书也有200多本,由于内容的敏感性,我就不一一展示了。

因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

CSDN大礼包:《黑客&网络安全入门&进阶学习资源包》免费分享

4.工具包、面试题和源码

“工欲善其事必先利其器”我为大家总结出了最受欢迎的几十款款黑客工具。涉及范围主要集中在 信息收集、Android黑客工具、自动化工具、网络钓鱼等,感兴趣的同学不容错过。

还有我视频里讲的案例源码和对应的工具包,需要的话也可以拿走。

因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

CSDN大礼包:《黑客&网络安全入门&进阶学习资源包》免费分享

最后就是我这几年整理的网安方面的面试题,如果你是要找网安方面的工作,它们绝对能帮你大忙。

这些题目都是大家在面试深信服、奇安信、腾讯或者其它大厂面试时经常遇到的,如果大家有好的题目或者好的见解欢迎分享。

参考解析:深信服官网、奇安信官网、Freebuf、csdn等

内容特点:条理清晰,含图像化表示更加易懂。

内容概要:包括 内网、操作系统、协议、渗透测试、安服、漏洞、注入、XSS、CSRF、SSRF、文件上传、文件下载、文件包含、XXE、逻辑漏洞、工具、SQLmap、NMAP、BP、MSF…

因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

CSDN大礼包:《黑客&网络安全入门&进阶学习资源包》免费分享

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值