DeepSentiBank: Visual Sentiment Concept Classificationwith Deep Convolutional Neural Networks

论文地址:https://arxiv.org/abs/1410.8586

摘要:

文章介绍了一种基于深度卷积神经网络(cnn)的视觉情感概念分类方法。视觉情感概念是从网络照片标签中自动发现的形容词名词对(anp),可以作为有效的统计线索来检测图像中所描述的情感。下载了近100万张带有这些anp标记的Flickr图片来训练概念的分类器。我们采用了最近流行的深度卷积神经网络模型,该模型对基于web的大型图像数据集(如ImageNet)的分类性能有很大提高。我们的深度cnn模型是基于新开发的深度学习框架Caffe进行训练的。为了处理只包含具有强烈情感的图像的有偏训练数据,并防止过拟合,我们使用从ImageNet训练的模型权值初始化模型。性能评估表明,新训练的深度cnn模型SentiBank 2.0(或称为DeepSentiBank)与之前主要使用二值支持向量机分类模型相比,在标注精度和检索性能上都有显著提高。

1. INTRODUCTION

社交媒体和在线视觉内容的爆炸式增长推动了大规模社交多媒体分析的研究。在这些研究中,理解视觉媒体内容中的情感和情绪在研究和实际应用中越来越受到关注。情感强烈的图像和视频可以强化内容所传达的观点,更有效地影响受众。理解视觉内容所表达的情感将极大地促进社交媒体传播,并使其在教育、广告和娱乐等领域得到广泛应用。

在计算机视觉中,对“天空”和“狗”等通用视觉概念(名词)的建模已经进行了广泛的研究,但对“惊人”和“害羞”等与视觉情感相关的形容词进行建模仍然很困难,如果不是不可能的话,因为低级视觉特征与高级情感之间存在很大的“情感差距”。因此,Borth等人[1]提出了一种更容易处理的方法,将情感相关的视觉概念建模为中层表示来填补空白。这些概念就是形容词名词对(ANPs),如“快乐的狗”和“美丽的天空”,它们结合了形容词的情感力量和名词的可探测性。虽然这些ANP概念并不直接表达情感或情绪,但它们是基于与网络照片的情感标签的强共现关系发现的,因此作为检测图像中描述的情感的有效统计线索是有用的。在[1]中,anp的二值支持向量机分类器在整个图像上进行训练,记为SentiBank 1.1。后来Chen等人[2]通过考虑基于对象的概念定位和利用概念之间的语义相似性来改进这些分类器。

用于训练视觉情感概念的数据集涉及数千个类别,包括从Flickr下载的大约100万张图片。最近,Krizhevsky等人[18]表明,深度卷积神经网络(cnn)能够在ImageNet等类似数据集上取得很大的分类性能提升和效率[4]。与SVM和其他学习方法相比,该模型具有更大的学习能力,可以通过改变网络深度和广度来控制。它对统计数据的平稳性和图像性质的像素依赖性的局部性的强假设也大多是正确的。cnn也比具有类似大小的层的标准前馈神经网络更容易训练,因为它们的连接和参数要少得多,理论性能只会略有下降。cnn也有能力整合从更一般的数据集中学习到的模型权重,这可以通过将在ImageNet上学习到的模型转移到像SentiBank这样的专门数据集中来应用到我们的案例中。

这项工作介绍了SentiBank 2.0,或称为DeepSentiBank,这是一种视觉情感概念分类模型,它是在基于GPU的深度学习框架Caffe[14,15]下训练的。在ILSVRC2012[4]数据集上进行训练时,我们采用了与[18]相似的cnn架构。我们发现,使用从ImageNet训练的模型权重初始化模型比单独从视觉情感数据集进行训练提供了更好的性能。性能评估和与前人的比较表明,新训练的DeepSentiBank显著提高了ANP分类的标注精度,并适度提高了ANP检索性能

2. RELATED WORK

2.1 Modeling Sentiment

到目前为止,大多数情感分析工作都是基于文本信息[36,8,32]。情感模型已被证明在各种应用中都很有用,包括人类行为预测[8]、商业[26]和政治科学[34]。与基于文本的情感分析相比,基于图像的情感建模研究要少得多。最相关的工作是[1],提出了基于形容词-名词对设计大规模视觉情感本体(然后基于一对一的支持向量机进行情感建模)。Chen等[2]通过考虑基于对象的概念定位和利用概念之间的语义相似度进一步改进了模型。

2.2 Modeling Visual Concepts

概念建模在多媒体[25,31]和计算机视觉(通常称为“属性”)[9]中得到了广泛的研究。被建模的概念大多是对象[31]、场景[27]或活动[10]。有一些工作试图解决“细粒度识别”任务,其中的类别通常以层次结构组织。[6,7,5]。还有一些工作试图对图像的“非常规”概念或属性进行建模,例如图像美学和质量[16,22],可记忆性[12],趣味性[12]和情感/情感[21,35,13,21,35,37]。通常采用支持向量机和其他缺乏学习层的方法来训练模型。

2.3 Deep Learning

深度卷积网络在计算机视觉领域的研究由来已久。在早期的研究中,使用有监督的反向传播网络在数字识别上取得了成功的结果[20]。最近,类似的网络被应用于由超过一百万张图像组成的大型基准数据集,如ImageNet[4],并获得了竞争获胜的结果[18]

学习到的深度表征可以跨任务传递。它已经在无监督环境下进行了广泛的研究[29,23]。然而,卷积网络中的此类模型仅限于相对较小的数据集,如CIF AR和MNIST,并且在[19]中仅取得了适度的成功。Sermanet等[30]提出采用无监督预训练,再进行监督微调来解决训练数据不足的问题。使用概念库范式的监督预训练方法[17,33]在计算机视觉和多媒体设置中也被证明是成功的。它在监督设置中学习大规模数据的特征,然后将它们转移到带有不同标签的不同任务中。最近,Girshick等人[11]表明,在大数据集上进行监督预训练,然后在较小的数据集上进行领域自适应微调,是稀缺数据的有效范例。

3. VISUAL SENTIMENT ONTOLOGY AND CONCEPTS OVERVIEW

在本节中,我们简要回顾[1]中的视觉情感本体构建,并定义我们的分类问题。

3.1 Building Ontology

从视觉内容中分析情感、影响和情绪已经成为多媒体社区中一个令人兴奋的领域,可以为品牌监控、广告和意见挖掘构建新的应用程序。为了创建一个用于视觉内容情感分析的语料库,并激发对这一具有挑战性问题的创新研究,Borth等人[1]构建了一个数据库。该数据库包含一个视觉情感本体(VSO),由3000多个形容词名词对(anp)组成,SentiBank1是一组1200个训练好的视觉概念检测器,提供情感的中级表示,以及从Flickr获取的相关训练图像。VSO的构建基于数据驱动发现的心理学研究——对于Plutchik理论[28]中定义的24种情绪中的每一种,分别从Flickr和YouTube上检索图像和视频,以提取并发标签。所有形容词和所有名词的集合然后被用来形成anp,如“美丽的花朵”或“悲伤的眼睛”。然后,SentiBank在这些anp标记的图像上进行训练。

3.2 Dataset

该数据库包含一组Flickr图像,用于在SentiBank 1.1中训练和测试ANP分类器。对于每个ANP,最多下载1,000张带有该标签的图像,从而为3,316个ANP生成约100万张图像。为了训练视觉情感概念或ANP分类器,我们首先过滤掉与少于120张图像相关的ANP。过滤后剩下867,919张图像的anp。对于每个ANP,随机选择20张图像用于测试,而其他图像用于训练,确保每个ANP至少有100张训练图像。为了防止测试集中的偏差,任何与相同ANP关联的训练图像和测试图像对都不能在Flickr上共享同一个发布者。来自Flickr用户的ANP标签用作每个图像的标签。请注意,这些标签可能存在不完整性和噪声,即并非所有真实标签都有注释,有时也有错误分配的标签。然而,由于大量的注释任务,我们没有修复它们。我们按原样使用标签,因此将它们称为伪基础真理。

我们还建立了一个子集来比较不同模型的检索性能。这个子集只包含与六个名词相关的图像,即“汽车”、“狗”、“衣服”、“脸”、“花”和“食物”。这些名词不仅在社交多媒体中经常被标记,而且还与各种各样的形容词相关联,形成了一个庞大的anp集合(共135个)。它的训练集是完整训练集的相应子集。然而,它的测试集为每个ANP包含60个手动注释的图像,其中20个为阳性,40个为阴性。通过对每个ANP的60个测试图像的排序结果的平均精度来评价检索性能。对于这个数据集,我们将使用基于对象的定位,将新的DeepSentiBank与早期版本的SentiBank进行比较,称为SentiBank 1.5R(表示基于区域的SentiBank)[2]。

4. DEEP CONVOLUTIONAL NEURAL NETWORKS SOLUTION

4.1 Introduction of Caffe

Caffe是一个深度学习框架,充分考虑了清洁度、可读性和速度。它是由Jia[14]创建的,并由伯克利视觉与学习中心(BVLC)和社区贡献者积极开发。Caffe是在BSD 2Clause许可下发布的。使用Caffe进行深度学习编程有很多优点。其简洁的架构支持快速部署。网络在简单的配置文件中指定,代码中没有硬编码的参数。在CPU和GPU之间切换就像设置一个标志ĺC一样简单,这样模型就可以在GPU机器上训练,然后在商品集群上使用。

4.2 CNN Architecture

在这里,我们描述了用于训练视觉情感概念分类模型SentiBank 2.0或DeepSentiBank的深度卷积神经网络的整体架构。其架构大致如下[18]。如图1所示,网络包含8个具有权重的主要层(conv或fc);前五个是卷积的,另外三个是全连接的。

最后一个完全连接层的输出被馈送到2089路softmax,该softmax在2089个类标签上产生分布。该网络通过多项逻辑回归最大化预测分布下正确标签的对数概率在训练实例间的平均值。第二层、第四层和第五层卷积层的核只连接到前一层核映射的一半。第三层卷积层的核连接到第二层的所有核映射。全连接层中的神经元与前一层中的所有神经元相连。之后[24],将ReLUs (Rectified Linear Units,整流线性单元)非线性f(x) = max(0, x)应用于每个卷积全连通层的输出。重叠的最大池层(pool)在第一、第二和第五个ReLU层(ReLU)之后。池化层由相隔2像素的池化单元网格组成,每个池化单元以池化单元的位置为中心,总结一个大小为3 × 3的邻域。局部响应归一化层(lm)遵循第一层和第二层池化。

每层的输入/输出数据大小和层形状如表1所示。所有训练和测试图像首先归一化为256 × 256,不保持长宽比。为了防止过拟合,我们应用数据增强,包括生成图像平移和水平映射。我们通过从256 × 256图像中提取随机的227 × 227补丁(及其水平反射)并在这些提取的补丁上训练我们的网络来做到这一点。第一个卷积层用96个大小为11 × 11 × 3、步长为4像素的核对227 × 227 × 3的输入图像进行过滤。第二个卷积层将第一个卷积层的输出(池化和响应归一化)作为输入,并使用256个大小为5 × 5 × 48的核对其进行过滤。第三、第四和第五层卷积层相互连接,没有池化或归一化。第三个卷积层有384个大小为3 × 3 × 256的核,这些核连接到第二个卷积层的输出(归一化和池化)。第四个卷积层有384个核,大小为3×3×192,第五个卷积层有256个核,大小为3×3×192。完全连接的层每层有4096个神经元。

具体实验细节感兴趣的可以自己找原文看

  • 26
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值