AesExpert: Towards Multi-modality Foundation Model for Image Aesthetics Perception
动机
1. 要解决的问题
- 图像美学感知的高度抽象性:图像美学感知(IAP)的高度抽象性对当前的多模态大语言模型(MLLMs)提出了重大挑战。这些模型在理解图像的美学质量、属性(如颜色、光线、构图)、情感表达等方面存在显著不足。
- 缺乏标注的多模态美学数据:缺乏经过人类标注的多模态美学数据进一步加剧了MLLMs在美学感知能力上的不足。
- MLLMs在美学任务上的局限性:尽管MLLMs在一般性的视觉和语言理解任务上取得了显著进展,但在高度抽象的图像美学感知任务上仍存在明显局限,包括图像美学评估(IAA)、细粒度美学属性评价、美学情感分析及图像美学描述等。
- 实际应用需求