论文信息
题目:RelationLMM: Large Multimodal Model as Open and Versatile Visual Relationship Generalist
RelationLMM:作为开放通用视觉关系多面手的大型多模态模型
作者:Chi Xie, Shuang Liang, Jie Li, Zhao Zhang, Feng Zhu, Rui Zhao, and Yichen Wei
论文创新点
- 构建统一通用模型框架:以往视觉关系任务的研究多为特定任务构建专门模型,而本文作者基于LMMs构建了一个全新的统一框架,提出RelationLMM。
- 提出任务元素拆解(TED)方法:针对VR任务之间的冲突问题,作者提出TED方法。将复杂的VR任务拆解为多个简单、常见的基