Multimodal AI needs active human interaction
Pan, X., Schwartz, O. Nature Human Behaviour (2024). https://doi.org/10.1038/s41562-024-01932-6
人工智能 (AI) 工具正迅速变得越来越强大,拥有人类级别的“阅读”、“写作”、“听”、“说”、“看”和“画”能力。由于这种多模态技术将增加人机交互在日常生活中的普及性,因此重要的是不要被动地依赖 AI 工具,而是要积极地与它们合作,以促进而不是抑制人类技能的发展。
想象一下,你舒服地坐在沙发上,阅读《自然人类行为》杂志上的这篇文章。你的人工智能助手说:“我看到你在阅读有关多模态人工智能的文章。但你让我提醒你,我们需要为明天早上的演讲敲定视觉效果。我已经看过你上次演讲的观众反馈,并模拟了新的插图来介绍你的想法。”
当前的多模态人工智能模型具备这种互动的要素。许多现实生活中的任务,如驾驶和医疗诊断,很难仅通过口头交流来解决,需要多模态信息。最近的商业通用 AI 配备了视觉和听觉模态(例如 GPT-40、Gemini 1.5 和 Claude 3)。检索增强生成等技术正在开发中,以使大型语言模型 (LLM) 能够使用多模态数据库。便携式多模态 AI 设备(例如手持兔子 r1、可穿戴 ai pin 和 Ray-Ban Meta 智能眼镜)正在开发中,以在物理世界中提供帮助。这种多模态趋势大大增加了 AI 工具可以解决或协助的问题范围。它还通过语音和面部表情实时开辟了人机沟通渠道。
然而,AI 工具可以提供帮助的情况越多,工具就越有可能失效。当前的 AI 模型存在幻觉和训练数据偏见等问题,并且在推理等技能方面不如人类。如果用户过度依赖 AI 工具,他们可能不会意识到工具可能犯的错误。考虑一个可以实时“听”和“说”的多模态语言翻译人工智能。这种工具在日常情况下可能会有所帮助,并促进希望从事跨文化工作的人们的交流。然而,在高风险情况下(如法庭案件)的错误可能是严重的,并危及用户。另一个例子是,在人工智能编程助手流行之后,代码质量有所下降,可能是因为程序员过于信任人工智能工具,而不了解代码的工作原理。
这些问题部分是由于用户的被动行为造成的,例如不检查人工智能工具给出的答案(可能是因为时间不足或技能不足)。被动使用人工智能工具可以让人们有效地实现他们自己可能无法实现的目标。然而,被动使用可能会使个人特别容易受到人工智能工具的错误信息和虚假信息的影响。多模态人工智能提高了风险。这些工具变得越来越容易使用;诸如“语音”之类的功能可以增加工具的拟人化以及用户对技术的信任,并鼓励被动使用。这凸显了开发符合人类价值观、可验证和可解释的全球监管系统的必要性。
从用户的角度来看,如果个人积极判断人工智能的输出,他们就不会那么容易受到伤害。主动行为包括根据用户的需求验证和改进人工智能的输出。例如,数学家陶哲轩描述了他使用LLM帮助他证明组合恒等式的经历。该工具列出了他已经尝试过但失败的建议以及过于笼统的建议——但也有一个他忽略的建议,最终帮助他完成了证明。他根据人工智能建议进行的主动推理确保了这次成功的“合作”。将主动行为扩展到多模态人工智能(例如,3D 打印杯架),用户可以向人工智能工具口头解释他们的问题;展示纸质草图、设置的视频演示和软件截图;并积极评估和调整设计以满足他们的喜好。
随着人工智能的不断进步,并可能变得更加可靠,被动使用和主动使用的结果之间的差距可能会缩小。那时,主动行为可能并不明显优越。但正如诗人玛雅·安吉洛所说,“我人生的使命不仅仅是生存,而是茁壮成长……”。主动使用人工智能工具不仅仅是一种确保更高正确性的方式;用户还将提高现有技能并学习新技能,并满足更深层次的自我发展、表达和创造需求。这种学习过程自然而然地发生在基于人工智能输出进行主动推理和验证的副产品中,这可能涉及促使人工智能工具解释和完善细节,寻找可靠的外部资源,并在实践中积累经验。
我们正在见证多模态人工智能开始融入我们的日常生活和工作。为了确保安全和繁荣的未来,用户应该主动互动,而不是被动地依赖人工智能工具。