【文献阅读】Simple but Powerful, a Language-supervised Method for Image Emotion Classification（2022）

最新推荐文章于 2024-08-12 14:30:00 发布

阿弗YUKI

最新推荐文章于 2024-08-12 14:30:00 发布

阅读量135

点赞数

文章标签： python 深度学习 transformer 计算机视觉

本文链接：https://blog.csdn.net/YUKII_33/article/details/133789053

版权

IEEE Transactions on Affective Computing
北工大
主要关注问题
- 人类情感涉及高度抽象和主观的认知过程，直接映射将低级像素与高级情感之间的巨大情感差距低估了
- 作者认为“情感标签”监督和“情感标签分布”监督，都不如“语言监督效果好”，因为语言能提供丰富语义
主要创新点
- 提出一个语言监督图像情感分类框架SimEmotion
- 为了丰富文本信息以进行微调，提出了一个针对特定任务的提示，通过提取情感概念和实体信息的信号来实现。
相关工作：将“标签分布”作为额外的监督信号指导特征学习
- Learning visual sentiment distributions via augmented conditional probability neural network（2017）
- Stimuli-aware visual emotion analysis（2021）
simEmotion
- 知识提示生成模块
  - Plutchik的情绪轮包含了8个基本的情绪类别，每个类别用三种不同强度的形容词来描述，表现出较强的情绪描述能力
  - Xi表示图像，Pi代表该模块最后生成的文本提示符，S1i，S2i，S3i是三种不同强度的情感词，实体用E1i，E2i......，该模块最终生成一个图像提示符对
  - 用panoptic分割模型来检测并提取图像中所有实体
  - 但没有提到情感word怎么来的
  - 选择其中置信度>0.5的实体
  - 用“a photo contains [entity words], it seems like to express some feelings like [emotion words]”这一句式整理，记作Pi
- 语义情感特征提取模块
  - 得到图像提示符对{x,p}（{image-text}格式），使用CLIP-RN101进一步应用视觉编码器（ResNet101）和文本编码器（Transformer）将它们分别嵌入到情感空间中
  - 得到两个情感向量f_img和f_txt，然后使用分类器将视觉特征映射到情感类别
- 损失函数
  - 利用上一模块产生的两个情感向量计算相似度损失
  - 再通过计算预测情感类别和情感标签之间的差值得到分类损失
  - 总损失
- 整体框架图
实验
- 准确度对比结果
- siemotion性能的进一步研究
  - 使用不同的CLIP驱动策略
    - Zero-shot：多文本输入策略（一图像-多文本）
      - 通过计算图像与不同文本模板之间的输出特征相似度判断预测类别
      - 不经过训练直接使用
    - Linear Probe：单一文本输入策略（一图像一文本）
      - 需要训练
      - 无负样本的度量学习模式
    - w/o T
      - CLIP模型仅作为视觉编码器的一半来提取视觉特征
  - 使用不同的视觉编码器
  - 使用多个性能评估指标
    - 准确率
    - 平均精度
    - F1值和宏平均
- 未来展望
  - 对于内容不规则的图像，语义信息的挖掘和利用还需要进一步研究
  - “实体检测器”可以被进一步改进，需要采用多种方法来准确挖掘情感相关的实体信息

阿弗YUKI

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【文献阅读】Simple but Powerful, a Language-supervised Method for Image Emotion Classification（2022）

IEEE Transactions on Affective Computing 北工大主要关注问题人类情感涉及高度抽象和主观的认知过程，直接映射将低级像素与高级情感之间的巨大情感差距低估了作者认为“情感标签”监督和“情感标签分布”监督，都不如“语言监督效果好”，因为语言能提供丰富语义主要创新点提出一个语言监督图像情感分类框架SimEmotion 为了丰富文本信息以进行微调，提出了一个针对特定任务的提示，通过提取情感概念和实体信息的信号来实现。相关工作：将“标签分布”作为
复制链接

扫一扫