多模态AI浪潮来袭，或造福数亿视障人群

最新推荐文章于 2025-04-03 20:08:47 发布

AI科技大本营

最新推荐文章于 2025-04-03 20:08:47 发布

阅读量740

点赞数 1

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg4NDQwNTI0OQ==&mid=2247568321&idx=2&sn=cf6ce787b2085bd44c06c5441731e05f&chksm=cfbb2eaff8cca7b998448c53f2e6b94a9dbc21bd96f987de5b227c966b95858bac5b07bc40fe&scene=126&sessionid=0

版权

文章探讨了信息无障碍的重要性，特别是针对视觉障碍人群的AI助盲技术。通过多模态算法的发展，如视觉问答和文本去噪推理，AI旨在提高视障人士的生活质量和独立性。浪潮信息的研究团队在这方面取得进展，他们的工作强调了理解盲人需求、处理交互噪声以及智能交互研究的关键作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

外卖、打车、社交、视频……现代社会海量的应用服务着人们的工作和生活，让人非常方便地就能体验到丰富的物质和精神享受。但与此同时，“障碍人群”的需求也值得关注。

第二次全国残疾人抽样调查结果、国家统计局2021年第7次人口普查数据，以及中国互联网络信息中心官网等综合显示：我国有1691万视障人士、2780万听障人士、2977万肢体残障人士、2.6亿60岁及以上老年人、4.16亿非网民，以及大量的认知障碍人士。

其实，进一步说，“非障碍人群”可能也会遇到情境性障碍和临时性障碍，比如突如其来的伤病，在伤病期间，部分功能的受损，使其也临时成为“障碍人群”。

对“障碍人群”给予更多的关注和必要的帮助，不仅是社会文明进步的标志，也体现出社会的平等、公平。因此，如何让“障碍人群”平等享受现代文明，成为当下推动社会文明进步的关键命题。

信息无障碍：让每一个人都平等享受现代文明

对于“障碍人群”而言，科技所带来的改变可能是颠覆性的，将会显著提高TA们在社会活动中的独立性和生活质量，“信息无障碍”就是希望借助科技的力量，让“障碍人群”平等地享受现代文明。

2020年，工业和信息化部、中国残联联合发布的《关于推进信息无障碍的指导意见》是这样定义信息无障碍的：

“信息无障碍是指通过信息化手段弥补身体机能、所处环境等存在的差异，使任何人（无论是健全人还是残疾人、无论是年轻人还是老年人）都能平等、方便、安全地获取、交互、使用信息。”

我们欣喜地看到，现在越来越多的机构、组织、企业，正在借助科技的力量，为每一个的生活带来改变。

信息无障碍最具挑战课题：AI助盲

据世卫组织统计，全球至少有22亿人视力受损或失明。因此，在诸多“障碍”中，针对“视觉障碍”的科研和应用探索尤为广泛和深入。这其中，在众多现代化的技术中，AI助盲成为学术界和产业界关注的焦点。

一般来说，视障人群认知外界世界的渠道主要是听觉、嗅觉和触觉，这些其他模态的信息一定程度上帮助视障人士缓解了视力缺陷带来的问题。但在人类获取的外界信息中，来自视觉的占比高达70%~80%，因此直接基于AI构建机器视觉系统，帮助视障患者拥有对外界环境的视觉感知与视觉理解能力，无疑是更为有效的解决方案。

当下，某些单模态AI，图像识别已经超越了人类水平，但随着各种单模态技术的不断成熟，不同模态之间如何交互成为算法研究的瓶颈。为了提升AI模型的泛在能力，使机器具备跨模态的图像解析与理解能力，以“机器视觉+自然语言理解”为代表的多模态算法成为近年的研究焦点。而这种技术一旦成熟并应用于AI助盲领域，将能够造福数以亿计的视障人群。

AI助盲，从盲人视觉问答任务谈起

第一人称视角感知技术，对于AI助盲来说意义重大。它无需盲人跳出参与者身份去操作智能设备，而是从盲人的真实视角出发，帮助科学家们构建更符合盲人认知的算法模型，促进了盲人视觉问答任务的出现。

盲人视觉问答任务是学术界研究AI助盲的起点和核心研究方向之一，但在现有技术条件下，该任务的精度提升面临更大困难。一方面，盲人的问题类型更复杂，包括目标检测、文字识别、颜色、属性识别等各类问题，比如说分辨冰箱里的肉类、咨询药品的服用说明、挑选独特颜色的衬衣、介绍书籍内容等。另一方面，由于盲人在拍照时，很难把握手机和物体间的距离，经常会产生虚焦的情况，或者缺失关键信息，大大增加了有效特征提取难度。同时，现存的大部分视觉问答模型是基于封闭环境下的问答数据训练实现的，受样本分布限制严重，难以泛化到开放世界下的问答场景中，需要融合外部知识进行多段推理。

盲人视觉问答数据

其次，盲人视觉问答研究发现，视觉问答会遇到噪声干扰的衍生问题。如何准确定位噪声并完成智能推理，也面临重大挑战。盲人由于不具备对外界的视觉感知，因此在图文配对的视觉问答任务中，往往会产生大量错误。例如，盲人去超市购物时，由于商品外观、触感相似，很容易出现错误，比如拿起一瓶甘草片，却询问胃肠安一天吃几粒。这种语言噪声往往会导致现有AI模型失效，需要AI能够具有从庞杂的环境中分析噪声与可用信息的能力。

最后， AI助盲系统不应仅仅解答盲人当下的疑惑，还应该具备智能意图推理与智能信息呈现能力。智能意图推理技术的研究重点在于，通过让机器不断学习视障人群的语言和行为习惯，来推断其想要表达的交互意图。而由于使用者的表达方式和表达动作在时间和空间上都存在随机性，由此引发了交互决策的心理模型同样带有随机性，因此如何从连续随机的行为数据中提取用户输入的有效信息，设计出动态非确定的多模态模型，从而实现对不同任务的最佳呈现，非常关键。

毋庸置疑的是，在上述基础研究领域的重大突破，才是AI助盲技术早日落地的关键所在。来自浪潮信息的前沿研究团队正在通过多项算法创新、预训练模型和基础数据集构建等工作，推动AI助盲的进一步研究。

盲人视觉问答——看到盲人的需求

卡内基-梅隆大学等机构构建了一个盲人视觉数据库“VizWiz”，并发起全球多模态顶级视觉问答挑战赛VizWiz-VQA盲人视觉问答挑战赛，其模式是给定一张盲人拍摄的图片和问题，然后要求给出相应的答案。

目前，浪潮信息前沿研究团队提出了多项模型优化方法，在VizWiz-VQA上，实现了算法精度领先人类表现9.5%，在AI助盲领域获得世界冠军两项、亚军两项。

在VizWiz官网上公布的2万份求助中，盲人最多的提问就是想知道他们面前的是什么东西，而这些物品没法靠触觉或嗅觉来做出基本判断，例如 “这本书书名是什么？”。这需要模型拥有较强的图像文本识别能力，而盲人拍摄图片难以保证图像的方向，为此浪潮信息前沿研究团队提出自监督旋转多模态模型，通过自动修正图像角度及字符语义增强，结合光学字符检测识别技术解决“是什么”的理解问题。

此外，盲人除了想知道眼前物体是什么及其属性是什么之外，通常还需要知道眼前物体的用途。然而盲人拍摄的画面通常是模糊、不完整的，这导致一般算法难以判断目标物体的种类及用途。因此盲人问答模型需具备更充分的常识能力，可以依据低质量图像中残缺的信息推理用户真实意图。为此，浪潮信息前沿研究团队提出了答案驱动视觉定位与大模型图文匹配结合的算法，并提出多阶段交叉训练策略。推理时，将交叉训练后的视觉定位和图文匹配模型用于推理定位答案区域；同时基于光学字符识别算法确定区域字符，并将输出文本传送到文本编码器，最终通过图文匹配模型的文本解码器得到最终答案。

多模态视觉问答模型解决方案

问答交互噪声定位——看清盲人的需求

当前，视觉定位研究应用落地的最大障碍之一是对于噪声的智能化处理。一般来说，文本描述往往有口误、歧义、修辞等噪声，而文本噪声会导致现有AI模型失效。

为此，浪潮信息前沿创新团队探索了真实世界中，由于人类语言错误导致的多模态失配问题，首次提出视觉定位文本去噪推理任务FREC，并构建了首个可解释去噪视觉定位模型FCTR。

FREC要求模型正确定位噪声描述对应的视觉内容，并进一步推理出文本含噪的证据，提供了3万图片和超过25万的文本标注，囊括了口误、歧义、主观偏差等多种噪声，还提供噪声纠错、含噪证据等可解释标签。

FCTR则实现了噪声文本描述条件下精度较传统模型提升11个百分点。该研究未来可广泛应用于机器人助理客服、大数据检索、数字机器人、育儿等多模态人机交互与论断推理等场景。

FCTR结构图

令人兴奋的是，FREC、FCTR这两项证明AI具有更深层次理解潜力的研究成果，已发表在多媒体领域顶级会议ACM Multimedia 2022，向全球的AI从业者分享来自中国的科技善举。

智能交互研究——看懂盲人的心声

此外，为了让AI能够更懂盲人，浪潮信息前沿创新团队还在探索AI在图像和文本的基础上与人进行思维交互的能力，通过建立逻辑链在庞大的知识库中进行检索，对图像和文本的已有内容实现扩展。

为此，浪潮信息前沿创新团队构建了可解释智能体视觉交互问答任务AI-VQA，同时给出首个智能体交互行为理解算法模型ARE（encoder- decoder model for alternative reason and explanation），这为科研工作者开展相关研究探索提供了基础数据集和基础模型。