MCOMET: Multimodal Fusion Transformer for Physical Audiovisual Commonsense Reasoning
Mcomet:用于物理视听常识推理的多模态融合转换器物理常识推理对于构建可靠和可解释的人工智能系统至关重要,它涉及对日常对象的物理属性和可供性的一般理解,这些对象如何被操纵,以及它们如何与他人互动。它从根本上说是一种多感官的任务,因为物理属性通过多种模态表现出来,包括视觉和声学。在这项工作中,我们提出了一个用于物理视听常识推理的统一框架,命名为多模态常识转换器( MCOMET )。MCOMET有两个有趣的性质:i )它充分挖掘了跨模态(例如,对,三元组和四元组)之间的高阶时间关系;
原创
2024-03-08 17:45:50 ·
951 阅读 ·
1 评论