- IEEE Transactions on Affective Computing
- 北工大
- 主要关注问题
- 人类情感涉及高度抽象和主观的认知过程,直接映射将低级像素与高级情感之间的巨大情感差距低估了
- 作者认为“情感标签”监督和“情感标签分布”监督,都不如“语言监督效果好”,因为语言能提供丰富语义
- 主要创新点
- 提出一个语言监督图像情感分类框架SimEmotion
- 为了丰富文本信息以进行微调,提出了一个针对特定任务的提示,通过提取情感概念和实体信息的信号来实现。
- 相关工作:将“标签分布”作为额外的监督信号指导特征学习
- Learning visual sentiment distributions via augmented conditional probability neural network(2017)
- Stimuli-aware visual emotion analysis(2021)
- simEmotion
- 知识提示生成模块
- Plutchik的情绪轮包含了8个基本的情绪类别,每个类别用三种不同强度的形容词来描述,表现出较强的情绪描述能力
- Xi表示图像,Pi代表该模块最后生成的文本提示符,S1i,S2i,S3i是三种不同强度的情感词,实体用E1i,E2i......,该模块最终生成一个图像提示符对
- 用panoptic分割模型来检测并提取图像中所有实体
- 但没有提到情感word怎么来的
- 选择其中置信度>0.5的实体
- 用“a photo contains [entity words], it seems like to express some feelings like [emotion words]”这一句式整理,记作Pi
- Plutchik的情绪轮包含了8个基本的情绪类别,每个类别用三种不同强度的形容词来描述,表现出较强的情绪描述能力
- 语义情感特征提取模块
- 得到图像提示符对{x,p}({image-text}格式),使用CLIP-RN101进一步应用视觉编码器(ResNet101)和文本编码器(Transformer)将它们分别嵌入到情感空间中
- 得到两个情感向量f_img和f_txt,然后使用分类器将视觉特征映射到情感类别
- 损失函数
- 利用上一模块产生的两个情感向量计算相似度损失
- 再通过计算预测情感类别和情感标签之间的差值得到分类损失
- 总损失
- 利用上一模块产生的两个情感向量计算相似度损失
- 整体框架图
- 知识提示生成模块
- 实验
- 准确度对比结果
- siemotion性能的进一步研究
- 使用不同的CLIP驱动策略
- Zero-shot:多文本输入策略(一图像-多文本)
- 通过计算图像与不同文本模板之间的输出特征相似度判断预测类别
- 不经过训练直接使用
- Linear Probe:单一文本输入策略(一图像一文本)
- 需要训练
- 无负样本的度量学习模式
- w/o T
- CLIP模型仅作为视觉编码器的一半来提取视觉特征
-
- 使用不同的视觉编码器
- 使用多个性能评估指标
- 准确率
- 平均精度
- F1值和宏平均
- 使用不同的CLIP驱动策略
- 未来展望
- 对于内容不规则的图像,语义信息的挖掘和利用还需要进一步研究
- “实体检测器”可以被进一步改进,需要采用多种方法来准确挖掘情感相关的实体信息
- 准确度对比结果
【文献阅读】Simple but Powerful, a Language-supervised Method for Image Emotion Classification(2022)
最新推荐文章于 2024-08-12 14:30:00 发布