【阅读笔记】：2020《基于视觉语义联合嵌入和注意力机制的情感预测》

本文链接：https://blog.csdn.net/dong_yufan/article/details/108339571

《计算机科学》首发

关于《基于视觉语义联合嵌入和注意力机制的情感预测》的阅读笔记

2020.7

作者：蓝亦伦，孟敏等

摘要

为了缓解图像视觉特征与情感语义特征之间存在的鸿沟，减弱图像中情感无关区域对情感分类的影响，提出了一种结合视觉语义联合嵌入和注意力模型的情感分类算法。
i) 首先利用自编码器学习图像的视觉特征和情感属性的语义特征的联合嵌入特征，缩小低层次的视觉特征与高层次的语义特征之间的差距；
ii）然后提取图像的一组显著区域特征，引入注意力模型建立显著区域与联合嵌入特征的关联，确定与情感相关的显著区域；
iii) 最后基于这些显著区域特征构建情感分类器，实现图像的情感分类。
实验结果表明，该算法有效地改进了现有的图像情感分类方法，显著提高了对测试样本的情感分类精度。

该文章属于情感分类，目前可提取的点包括但不限于：
①图像视觉特征；②视觉语义嵌入；③注意力模型。
如果需要接着目前的研究方向做进一步的拓展研究，图像情感分析和注意力机制是目前尝试的方向。
（当前本人研究中，图像的预处理保证了物理位置上的语义大致对其，但是方法机械不智能。是否能都通过自动携带语义内容，将风格图像与内容图像的语义进行对其，从而解决空间分布不协调的问题？）

1.1 贡献点

（1）设计了一种基于自编码器的视觉语义联合嵌入的方法，将情感属性向量作为额外的监督，得到的视觉语义联合嵌入层能有效地缩小低层次的图像特征与高层次的情感属性之间的语义差距。
（2）在得到训练好的视觉语义的联合嵌入特征的基础上，将图像的显著区域检测网络与注意力机制结合起来，在注意力机制中学习显著区域与带有情感语义的联合嵌入层之间的关联，基于这些区域的分类器在图像情感预测方面表现出了较好的性能。

1.2 基于自编码器的视觉语义联合嵌入

自动编码器作为深度学期中的一种无监督学习方法，在自然语言处理领域取得了较好的效果。自动编码器的基本思想就是：把原始的高维特征转化为低维向量，在这个过程中学习原始数据中的潜在特征，剔除高维特征中的冗余部分，得到原始数据的精炼表达。

1.3 基于注意力模型的情感分类

该模型由显著区域初始化模块、视觉注意模块和情感分类模块3个部分组成。首先，把图片输入到显著区域检测模块中，利用Faster-RCNN与ResNet101相结合的模型，得到一组图像显著区域特征。然后，将这组特征与视觉语义的联合嵌入特征一起，作为视觉注意模块的输入，计算出每一个显著区域的注意权重。将注意权重与对应显著区域进行加权，得到注意特征。最后，将所有的注意特征输入情绪分类模块，实现最终情感预测。
在这里插入图片描述