【文献阅读】Simple but Powerful, a Language-supervised Method for Image Emotion Classification(2022)

  • IEEE Transactions on Affective Computing
  • 北工大
  • 主要关注问题
    • 人类情感涉及高度抽象和主观的认知过程,直接映射将低级像素与高级情感之间的巨大情感差距低估了
    • 作者认为“情感标签”监督和“情感标签分布”监督,都不如“语言监督效果好”,因为语言能提供丰富语义
  • 主要创新点
    • 提出一个语言监督图像情感分类框架SimEmotion
    • 为了丰富文本信息以进行微调,提出了一个针对特定任务的提示,通过提取情感概念和实体信息的信号来实现。
  • 相关工作:将“标签分布”作为额外的监督信号指导特征学习
    • Learning visual sentiment distributions via augmented conditional probability neural network(2017)
    • Stimuli-aware visual emotion analysis(2021)
  • simEmotion
    • 知识提示生成模块
      • Plutchik的情绪轮包含了8个基本的情绪类别,每个类别用三种不同强度的形容词来描述,表现出较强的情绪描述能力

      • Xi表示图像,Pi代表该模块最后生成的文本提示符,S1i,S2i,S3i是三种不同强度的情感词,实体用E1i,E2i......,该模块最终生成一个图像提示符对
      • 用panoptic分割模型来检测并提取图像中所有实体
      • 但没有提到情感word怎么来的
      • 选择其中置信度>0.5的实体
      • 用“a photo contains [entity words], it seems like to express some feelings like [emotion words]”这一句式整理,记作Pi
    • 语义情感特征提取模块
      • 得到图像提示符对{x,p}({image-text}格式),使用CLIP-RN101进一步应用视觉编码器(ResNet101)和文本编码器(Transformer)将它们分别嵌入到情感空间中
      • 得到两个情感向量f_img和f_txt,然后使用分类器将视觉特征映射到情感类别
    • 损失函数
      • 利用上一模块产生的两个情感向量计算相似度损失

      • 再通过计算预测情感类别和情感标签之间的差值得到分类损失

      • 总损失

    • 整体框架图

  • 实验
    • 准确度对比结果

    • siemotion性能的进一步研究
      • 使用不同的CLIP驱动策略
        • Zero-shot:多文本输入策略(一图像-多文本)
          • 通过计算图像与不同文本模板之间的输出特征相似度判断预测类别
          • 不经过训练直接使用
        • Linear Probe:单一文本输入策略(一图像一文本)
          • 需要训练
          • 无负样本的度量学习模式
        • w/o T
          • CLIP模型仅作为视觉编码器的一半来提取视觉特征
      • 使用不同的视觉编码器

      • 使用多个性能评估指标
        • 准确率
        • 平均精度
        • F1值和宏平均
    • 未来展望
      • 对于内容不规则的图像,语义信息的挖掘和利用还需要进一步研究
      • “实体检测器”可以被进一步改进,需要采用多种方法来准确挖掘情感相关的实体信息
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
graph convolutional networks (GCNs)是一种用于半监督分类的图卷积网络。GCNs适用于处理图数据,其中图由节点和节点之间的连接边组成。半监督分类是指在一些标记有类别的节点样本的基础上,对未标记的节点进行分类。以下是关于GCNs在半监督分类中的代码解释: GCNs的代码通常包含以下主要部分: 1. 数据准备:首先,我们需要准备图数据。这包括节点特征矩阵和图的邻接矩阵。节点特征矩阵是一个二维矩阵,每一行对应一个节点的特征向量。邻接矩阵描述节点之间的连接关系。 2. 定义模型:接下来,我们定义GCNs的模型结构。这包括定义卷积层、池化层和分类层等。卷积层用于在图上学习节点的特征表达,池化层用于减少节点的数量,分类层用于进行节点分类。 3. 前向传播:在GCNs中,前向传播的过程是通过迭代卷积层来逐步改进节点特征。我们可以通过相邻节点的特征加权平均来更新每个节点的特征。这个过程被称为图卷积。 4. 反向传播与优化:在前向传播后,我们计算模型预测结果与真实标签之间的损失。然后,使用反向传播算法计算梯度,并通过优化算法(例如随机梯度下降)更新模型的参数,以最小化损失。 5. 训练和评估:使用带有已标记节点标签的图数据集进行模型的训练。训练的目标是使模型能够准确预测未标记节点的类别。评估阶段,我们在测试集上评估模型的性能,通常使用准确率等指标来度量分类结果的质量。 总的来说,GCNs的代码实现主要涉及图数据的准备、模型定义、前向传播、反向传播与优化以及训练和评估等步骤。通过这些步骤,我们可以使用GCNs对图数据进行半监督分类任务。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值