#今日论文推荐#CVPR 2022:字节跳动多项竞赛夺冠,发力无障碍技术创新
作为一年一度AI计算机视觉领域的顶级盛会,CVPR 2022已经落下帷幕。
字节跳动旗下的极光-多模态技术团队、智能创作团队、火山引擎多媒体实验室团队斩获了多项竞赛冠军,覆盖「视觉问答」、「图像实例分割」、「长视频内容理解」、「图片恢复」,以及「图片视频压缩技术」等场景。
其中,两项研究成果有助于视障人群克服日常生活中的视觉挑战、提升残障人士出行的安全性,助力打造无障碍环境。
帮助视障人士精准「识图」,视觉问答竞赛高精度技术方案夺冠
「视觉问答」是通向多模人工智能的一项基础挑战。
一个自然的应用就是帮助视障人群克服他们日常生活中的视觉挑战,如视障群体通过手机镜头捕获视觉内容,再通过语言对镜头中的内容发起提问。AI算法需要识别和描述物体或场景,并以自然语言的方式进行回答。
在CVPR 2022上,权威视觉问答竞赛VizWiz提出了新的挑战:AI在回答(Talk)有关的视觉问题时,必须精确地高亮出(Show)相应的视觉证据。
论文题目:Tell Me the Evidence? Dual Visual-Linguistic Interaction for Answer Grounding
详细解读:https://www.aminer.cn/research_report/62c7a0357cb68b460fe5c833https://www.aminer.cn/research_report/62c7a0357cb68b460fe5c833
AMiner链接:https://www.aminer.cn/?f=cs