背景
这里要分析的一篇文章,题为“从辅助源学习图像的主观属性”。近些年,人工智能领域出现了对图像、视频“主观属性”的研究:以图像为例,“主观属性”指的是那些与图像内容信息非客观(客观信息如图像中的物体、颜色、纹理等等),高度依赖受众的主观感受、认知的属性(如喜爱、憎恶等)。如下面的例子:
这个例子讲到了主观属性“喜爱”,假定将人们对于图像“喜爱”这个刻画程度以区间[0,1]来表示,对于不同的受众群体,被狗狗救过、对狗过敏、被狗咬伤这些经历,对主观属性“喜爱”的程度自然有深浅 。
\qquad
文章指出,主观属性是非常有价值的,因为在许多应用程序中,图像是为大群体的需要而定制的,大群体由许多有着固有不同想法和偏好的个人组成。例如,营销专家选择图像来在消费者的脑海中建立特定的联想,新闻制作者选择图像来给受众留下深刻印象,而心理学家则寻找具有足够情感的图像来治疗。因此,这些领域的专家将极大地受益于一种根据主观属性对图像进行自动排序的方法。
\qquad
这篇文章利用基于已知的聚合分布将这些主观信息传递到图像级标签上,文中进行的实验包括:根据社会媒体营销和人格心理学领域知识的主观属性来对图片进行排序。实验研究表明,使用辅助信息在多媒体领域进行主观属性预测具有一定的可行性。
贡献
\qquad
文章的出发点在于,利用好相关的实体(作为“辅助资源”),当现实生活中的实体(如人或组织等)与图像交互时,主观属性尤其会发挥作用,当品牌在社交媒体上分享图片或用户在推特上分享图片时。这些实体可能有额外的信息,这些信息反映在与它们交互的图像的选择上,也就是说,它们根据它们的主观属性选择图像。本文的工作,就是利用这些实体的贡献和交互作用,可以推断出图像的主观属性。
\qquad
本文提出了一种能够将辅助资源域(实体)的信息迁移到图像域的方法, 并且提出了一种概率优化算法,该算法能够通过概率框架从一组图像中推断出主观属性,从而对这些属性的不确定性建模。
数据的组织方式如下:
上图左侧是一组含有某些潜在主观属性(
y
i
y_i
yi)的图像(
x
i
x_i
xi),挖掘出图像中的主观属性就是最终目的(也就是这篇文章要做的事);中间是实体
z
i
z_i
zi具有的各种已知属性
y
i
y_i
yi(属性名和属性值均已知);右侧是实体(
z
i
z_i
zi)曾经与图像(
x
i
x_i
xi)有过的交互信息(也是已知条件)
模型如何反映出辅助域的知识迁移到图像域中了呢?
假设有张图像
x
x
x,现在只考虑两个要发掘的属性
y
i
,
y
j
y_i,y_j
yi,yj,如果与这张图像有过交互的实体自身在
i
,
j
i,j
i,j两个属性上存在属性值大小关系是
y
i
>
y
j
y_i>y_j
yi>yj,这要求模型(用
n
n
nn
nn表示)的输出要能够满足以下条件:
s
i
g
n
(
n
n
(
x
i
)
−
n
n
(
x
j
)
)
=
{
1
if
y
i
>
y
j
−
1
otherwise
sign(nn(x_i)-nn(x_j)) = \begin{cases} 1 &\text{if } y_i>y_j \\ -1 &\text{otherwise} \end{cases}
sign(nn(xi)−nn(xj))={1−1if yi>yjotherwise
模型结构
图像主观属性的预测采用的是多层感知机(MLP),首先通过一个多层感知机
M
L
P
1
MLP_1
MLP1来学习图像表征
x
h
x_h
xh,图像的原始特征
x
x
x通过一个预训练的CNN(这里使用的应该是VGG16)抽取得到:
x
h
=
L
L
3
(
ε
(
L
L
2
(
ε
(
L
L
1
(
x
)
)
)
)
)
x_h = LL_3(\varepsilon(LL_2(\varepsilon(LL_1(x)))))
xh=LL3(ε(LL2(ε(LL1(x)))))
L
L
1
,
L
L
2
,
L
L
3
LL_1,LL_2,LL_3
LL1,LL2,LL3均为线性层,
ε
\varepsilon
ε是Leaky ReLU激活函数。
利用得到的图像特征
x
h
x_h
xh,作为多个多层感知机的输入(每一个主观属性分配一个MLP)通过多个多层感知机来预测多个主观属性。每个多层感知机内部包括有线性层和相应的激活函数。
o
1
,
o
2
,
.
.
.
,
o
N
=
M
L
P
m
1
(
x
h
)
,
M
L
P
m
2
(
x
h
)
,
.
.
.
,
M
L
P
m
N
(
x
h
)
o_1,o_2,...,o_N = MLP_{m1}(x_h),MLP_{m2}(x_h),...,MLP_{mN}(x_h)
o1,o2,...,oN=MLPm1(xh),MLPm2(xh),...,MLPmN(xh)
概率学习部分
\qquad
文章假定对于实体的每个属性
i
i
i都是服从一维的正态分布(均值取该实体在
i
i
i属性上的值,方差未知,通过模型自行学习得到),这样一来,选定一个辅助实体(aux_1)和与它有过一组图片(假定是K个),和另一个辅助实体(aux_2)及与该实体有过交互的一组图片(也是K个),作为模型的输入。
\qquad
模型对于两个实体的两组图像数据分别进行输出,文章对两组输出数据的分布进行了建模,假定两个实体在相应属性上的真实分布是
P
P
P,输出的数据分布记为
Q
Q
Q,这里通过KL散度进行约束,迫使模型输出的分布与真实分布的差异尽可能小。通过建模分布而不是数据点本身,学习方法不受离群点的影响,只拟合那些接近共识的图像,因此增加了模型的鲁棒性。
D
K
L
(
P
b
∣
∣
Q
b
)
=
∑
i
P
b
(
i
)
l
o
g
2
P
b
(
i
)
Q
b
(
i
)
D_{KL}(P_b||Q_b) =\sum_iP_b(i)log_2\dfrac{P_b(i)}{Q_b(i)}
DKL(Pb∣∣Qb)=i∑Pb(i)log2Qb(i)Pb(i)
算法过程及示意图
这里Batchsize为3,K为5。模型的约束主要是两部分,两个实体各自对应的一组图像数据的输出(以实体相应的属性值大小关系做标签)之间做Pairwise Loss,两个实体各自组的图像输出的分布与该属性真实分布的KL散度约束。
实验
实验所使用的数据集有两个,品牌市场营销数据(Marketing)和人格心理学数据(Personality psychology)。
\qquad
简要介绍下各个字段的含义:以Marketing数据集为例,主要是brand和post之间的关系。
D
D
D代表所有post图像集合,
D
A
D_A
DA是品牌数目(也即实体数目aux_num),
D
I
D_I
DI是实体和与它们有过交互的图像,
D
I
D_I
DI中划分出了训练集和测试集。
z
i
z_i
zi是各种实体集合(对Marketing数据集来说是从Instagram收集到的各大品牌,对Personality数据集来说是推特用户);
y
i
y_i
yi是实体可取的属性集合,本文提供了多个属性集合供选择;
(
x
i
,
z
i
)
∈
D
I
(x_i,z_i)\in D_I
(xi,zi)∈DI成立的条件,品牌
z
i
z_i
zi转发过post
x
i
x_i
xi或者用户
z
i
z_i
zi转发推特
x
i
x_i
xi.
评价标准
\qquad
实验通过R2决定系数、皮尔逊相关系数以及斯皮尔曼相关系数来衡量模型的效果。即模型预测输出的图像主观属性值与实体真实主观属性值的相关性或者拟合度。
R2系数计算方式:
假定
y
y
y是真实值,
y
^
\hat y
y^是预测输出值,
y
ˉ
\bar y
yˉ是真实值的均值。那么计算拟合度为:
R
2
(
y
,
y
^
)
=
1
−
∑
i
=
0
N
s
a
m
p
l
e
s
−
1
(
y
i
−
y
^
i
)
2
∑
i
=
0
N
s
a
m
p
l
e
s
−
1
(
y
i
−
y
^
)
2
R^2(y,\hat y) = 1-\dfrac{\sum_{i=0}^{N_{samples}-1}(y_i-\hat y_i)^2}{\sum_{i=0}^{N_{samples}-1}(y_i-\hat y)^2}
R2(y,y^)=1−∑i=0Nsamples−1(yi−y^)2∑i=0Nsamples−1(yi−y^i)2
模型越好R2越接近于1,越差则越接近于0.
皮尔逊系数(Pearson)和 斯皮尔曼系数(Spearman)取值范围[-1,1].绝对值越接近1则相关性越强(接近正1表示正相关,接近负1表示负相关,0表示线性无关)。
由于判断的是输出值和真实值之间的关系,本文是R2越接近1越好,两个相关系数越接近正1越好。在brand-post数据集上,以“Upper Class”和"Fun"两个主观属性为例的实验结果(分别使用多实例学习、平均值、固定标准差、未知标准差(由模型自行学习获得)):
由实验结果数据,可见本文提出的方法框架对挖掘图像主观属性具有可行性。