报告主题:如何让多模态大模型明察秋毫?
报告日期:10月11日(周五)10:30-11:30
报告要点:
Efficient High-Resolution Vision-Language Models 多模态大模型在许多任务上展现出不俗的性能,然而其从高分辨率图像中提取精细信息的能力仍有待提高。为了解决这一挑战,我们提出了FlexAttention,一种基于注意力掩码的动态图像信息提取模块。该模块能够无缝集成到任何基于自注意力机制的大模型中,有效提升其对高分辨率图像细节的捕捉能力。在讲座中,我们将详细介绍FlexAttention的原理和优势,并通过性能评估、可视化结果展示其效果。最后,我们还将探讨这一方法在其他领域的潜在应用和扩展方向。最大的特点是利用大模型自注意力机制生成的注意力图,动态选择高分辨率图像中重要信息区域,从而提升对细节信息的提取能力和效率。
报告嘉宾:
李俊彦,UMass Amherst计算机科学博士生,师从Chuang Gan,本科毕业于浙江大学。主要研究方向为多模态大模型和其在具身智能领域的应用,研究成果发表于ICLR/ECCV/ICCV/CVPR等会议。
扫码报名