报告时间:2020年12月2日 (星期三)晚上20:00 (北京时间)
主持人:杨猛 (中山大学)
Richer and Deeper
- 报告人:王鹏 (西北工业大学)
- Richer:下图中,进行VQA时需要模型具有不同的能力(如Reading能力),理解不同的信息,可能不止Visual信息,需要Knowledge信息等。
- Arxiv:
- 给模型Text GT,准确率可以达到60%,人类约为85%;
- 容易区分颜色,但是不易区分大小(如大牌匾、小牌匾);
- 推理能力不足;
- 图片中需要OCR的区域过多;
-
2021AAAI
-
Deeper:知识增强,基于知识的VQA,常识理解。
-
ACMMM 2020 Oral
Unbiased Scene Graph Generation
-
报告人:汤凯华 (Nanyang Technological University)
-
Motivation:场景图中生成的关系,都是比较常见的关系,这是由于数据集的Bias造成的。
-
Future Work:
Panel
- 嘉宾:
刘偲 (北京航空航天大学)、王鹏 (西北工业大学)、李冠彬 (中山大学)、白亚龙 (京东)、汤凯华 (Nanyang Technological University)
- 视觉与自然语言的结合是当前学界的研究热点之一,该方向有哪些子课题值得关注?这些子课题各自有哪些主流研究范式?
答:子课题:①image to text:caption;②text to image;③image and text关联学习: visual (common sense) reasoning。
范式:①直接映射;②找中间态。主要有两种趋势,一是performance,二是可解释性,现在在二者间正在逐渐达到平衡。 - 是否有人类视觉语言联合处理机制的研究工作?目前的视觉语言学习的机器方法如何受到了人的视觉语言联合学习机制的启发,它对揭示人的大脑处理机制起到了什么推动作用?
答:如人眼动仪和Visual Grounding中attention的转移是一样的。NLP领域常识库比较丰富,但是在VQA中引入常识,首先没有较好的常识库,而且融入进去也比较困难,但是可以针对特定领域(如医学、电商)构建常识库。 - 统一的视觉语言的预训练模型是否会成为视觉语言理解领域的标准方法?解决视觉和语言语义鸿沟问题的其他方法还有哪些有潜力与之竞争?
答:预训练会让模型变成黑盒子,一定程度上和可解释性是对立的。视觉+语言+常识库,高级推理机制,视觉是人生下来就有的,语言是人学习的。 - VQA问题与一般的图像理解和阅读理解问答有什么不同?VQA方法的设计是否是图像理解与阅读理解方法的叠加,需要哪些特别关注的地方?
答: - 关于Scene graph的问题,是否有感觉数据集本身的问题限制了图像深度理解方向的发展?请问我们是否有必要构建一套统一的数据标准,专门针对图像中物体关键的理解任务,构建一套全新的数据集?
答:①数据集标注十分昂贵;②标签层级化;③标注非常稀疏,没有负样本,可以用空间关系的互斥性增加负样本;④关系可以大致分为两类,一是空间关系,二是语义关系;⑤精简版的scene graph,如human action,“主谓宾”中主语永远是人;⑥虚拟场景向真实场景迁移;⑦不构造数据集,使用zero/few shot; - 关于图像和语言的深度理解在工业界的杀手级应用有哪些?相关技术距离大规模落地还有多远?
答:图像文本自动生成(生成广告),智能导播,智能导购,风格可控的商品短文生成,VQA目前还停留在感知的阶段,推理能力不行,无法大规模商用。下一代人机交互,依赖于视觉语言技术。 - 图以及图神经网络方法在视觉语言理解问题中有哪些优势?未来基于图的视觉和语言理解有哪些可供研究的点?
答: - 如何实现鲁棒可解释的视觉语言交互?视觉和语言的研究是否有机会成为认知智能发展的突破口?
答: