[ACM MM 2024] AesExpert 面向图像审美知觉的多模态基础模型

AesExpert: Towards Multi-modality Foundation Model for Image Aesthetics Perception

GitHub

(arxiv.org)

动机

1. 要解决的问题

  • 图像美学感知的高度抽象性:图像美学感知(IAP)的高度抽象性对当前的多模态大语言模型(MLLMs)提出了重大挑战。这些模型在理解图像的美学质量、属性(如颜色、光线、构图)、情感表达等方面存在显著不足。
  • 缺乏标注的多模态美学数据:缺乏经过人类标注的多模态美学数据进一步加剧了MLLMs在美学感知能力上的不足。
  • MLLMs在美学任务上的局限性:尽管MLLMs在一般性的视觉和语言理解任务上取得了显著进展,但在高度抽象的图像美学感知任务上仍存在明显局限,包括图像美学评估(IAA)、细粒度美学属性评价、美学情感分析及图像美学描述等。
  • 实际应用需求
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值