图片情感识别/分类/分析概述

最新推荐文章于 2025-05-06 14:38:53 发布

置顶

CaoChengtai

最新推荐文章于 2025-05-06 14:38:53 发布

阅读量1.3w

点赞数 34

分类专栏：图片情感文章标签：神经网络深度学习机器学习图片情感图片感情

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_37589575/article/details/104677970

版权

目录

（一）简介
（二）主要方法
（三）论文链接

（一）简介

图片可以用于传达某些情感，例如看到流浪狗的照片会让你感到悲伤，而看到美景的时候会让你心旷神怡。对图片所传达的情感进行识别分析是一个具有吸引力的问题。目前已经有很多的方法在研究这个课题，本博客主要对自己所看过的相关论文做一个总结分享。

1. 情绪模型

心理学中主要有两种情感表达模型：

CES (Categorical Emotion States): 类别情绪状态。这种模型主要讲情绪设置为一组预先定义好的种类，例如：伤心，开心，激动等。这种模型所对应的方法将图片情感分析视为一个分类问题。
DES(Dimensional Emotion Space): 维度情绪模型。其中常用的有 valence-arousal-dominance (VAD) and activity-temperature-weight (VTT) 模型，其中 VAD 模型常用一些。我们可以将其视为颜色中的三种基本颜色，通过不同数值的组合得到一个颜色。VAD 中 valence、arousa l和 dominance 三个维度给一个值就代表一种情感。这种模型所对应的方法将图片情感分析视为一个回归问题。

目前大部分的论文都是使用 CES 模型的，因为这个模型直观简单，但是理论上来说 CES 的情感表达能力不如 DES，比如特别伤心和有点伤心都属于伤心一类，但是在 DES 中各个维度的值就会不同。但是两者之间是有一定联系的。比如下图中的 © 子图，如果按照 CES 就是 fear 一类，如果按照 DES 三个维度对应的值就是 4.1956、4.49989 和 4.8378。

在这里插入图片描述

2. 常用数据集

IASP (International Affective Picture System)
IASPa
Abstract
GAPED (Geneva Affective Picture Database)
MART
devArt
Tweet
FlickrCC (Flickr creative common)
Flickr
Emotion6
FI (Flicker and Instagram)
Emotion6
IESN
FlickrLDL
TwitterLDL

3. 问题难点（挑战）

3.1 数据标记困难

标记图片的情感是一件很困难的事情，一是构造大型数据集（深度学习通常需要大量数据）通常需要大量的人力，另外有一个很关键的问题就是情绪这个问题是很主观的：同一张图片不同人可能从中获得的情感是不同的，同一个人在不同时期对同一张图片产生的情感也可能是不同的。因此标注一个大型数据集很麻烦，导致现有的大型数据集很少。解决上述问题的方法之一就是一张图片多个人标注

最低0.47元/天解锁文章

博客等级

码龄8年

50
原创

614
点赞

2224
收藏

369
粉丝

关注

私信

热门文章

分类专栏

Keras 1篇
Pandas 1篇
论文写作 3篇
Latex 3篇
Graph 5篇
图片情感 1篇
Meta-learning 9篇
杂货店 2篇
Pytorch 4篇
Python 32篇

展开全部收起

最新评论

Latex 算法 Algorithm 一些使用总结（基本用法，步骤标号，某一句加颜色）。
m0_61651991: Algorithm 1后面没有冒号
Latex 算法 Algorithm 一些使用总结（基本用法，步骤标号，某一句加颜色）。
qq_42245986: 自动产生的
Pytorch 之 MNIST 数据集实现
叠叠乐: 是的，这段代码对输入的 x 的大小有要求。具体来说，输入的 x 应该是一个形状为 (N, 1, 28, 28) 的张量，其中 N 是批量大小（batch size），1 是通道数（因为这是一个单通道的灰度图像），28 是图像的高度和宽度。以下是每一层对输入大小的影响： conv1: 输入大小为 (N, 1, 28, 28)，输出大小为 (N, 20, 24, 24)（因为卷积核大小为 5，步幅为 1）。 max_pool2d: 输入大小为 (N, 20, 24, 24)，输出大小为 (N, 20, 12, 12)（因为池化窗口大小为 2，步幅为 2）。 conv2: 输入大小为 (N, 20, 12, 12)，输出大小为 (N, 50, 8, 8)（因为卷积核大小为 5，步幅为 1）。 max_pool2d: 输入大小为 (N, 50, 8, 8)，输出大小为 (N, 50, 4, 4)（因为池化窗口大小为 2，步幅为 2）。 view: 将张量展平为 (N, 4 * 4 * 50)。 fc1: 输入大小为 (N, 4 * 4 * 50)，输出大小为 (N, 500)。 fc2: 输入大小为 (N, 500)，输出大小为 (N, 10)。因此，输入的 x 应该是一个形状为 (N, 1, 28, 28) 的张量，以确保每一层的输入和输出大小都匹配。
Few-shot learning（少样本学习）和 Meta-learning（元学习）概述
weixin_48725618: 请问为什么基于度量的方法不需要对新类训练而是直接检测呢？那基于RNN的需要对新类训练再预测还是直接预测呢？
Few-shot learning（少样本学习）和 Meta-learning（元学习）概述
weixin_48725618: 感觉应该有吧，个人理解

最新文章

目录

展开全部

收起

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。