1.基本背景
本文介绍了一种名为品牌联想的市场营销策略,即通过发现并转发用户关于自己品牌的帖子,以最大限度地吸引和扩大他们对用户的影响。文章指出,如何为一个品牌在社交媒体上选择合适的帖子仍然是一个有待解决的问题。
目前完成帖子选择的流程包括由一个了解品牌理念的社交网络营销专家手工做出选择,他的任务是分析并从数百万个可能的帖子中选择正确的内容。因此,完全自动化这个过程是可取的。本文将该问题命名为品牌内容发现。
2.主要内容
本文提出了一种个性化内容发现(Personalized Content Discovery,PCD)框架来解决品牌内容发现问题。
2.1符号及问题定义
A
i
A_i
Ai代表矩阵的第
i
i
i行
品牌集合
B
=
{
b
1
,
b
2
,
.
.
.
b
N
}
B=\{b_1,b_2,...b_N\}
B={b1,b2,...bN},其中
b
i
∈
B
b_i\in B
bi∈B是一个拥有活跃社交账号的品牌
图像帖子集合
P
=
{
p
1
,
.
.
.
p
M
}
P=\{p_1,...p_M\}
P={p1,...pM},其中每个元素均为发布在社交网络平台上的图片
品牌
b
b
b转发帖的历史记录记为
H
(
b
)
H(b)
H(b),图片
p
p
p被品牌
b
b
b转发过记为
p
∈
H
(
b
)
p\in H(b)
p∈H(b),并且有
H
(
b
)
⊆
P
H(b)\subseteq P
H(b)⊆P.
由于品牌转发的稀疏性,可以认为各品牌的转发历史几乎无重叠。
给定如上的输入数据后,品牌内容发现这一问题可以形式化定义为学习到一个函数
f
f
f,
该函数
f
f
f对于任一品牌
b
∈
B
b\in B
b∈B以及属于该品牌的新帖子
p
x
p_x
px有:
f
(
b
,
p
x
)
>
f
(
b
,
p
y
)
f(b,p_x)>f(b,p_y)
f(b,px)>f(b,py)
p
y
p_y
py是一个新帖并且满足
p
y
∈
b
^
p_y\in \hat b
py∈b^,
b
^
≠
b
\quad\hat b \ne b
b^=b.
2.2提出的方法
PCD框架的第一个部分致力于学习brand表示,而第二个部分学习转发帖post表示。品牌表示b和图像帖表示p被投影到公共空间中,并均被表示成
k
k
k维。品牌b和转发帖p的相似度计算方式:
f
(
b
,
p
)
=
b
T
p
∥
b
∥
∥
p
∥
f(b,p)=\dfrac{b^Tp}{\parallel b\parallel \parallel p\parallel}
f(b,p)=∥b∥∥p∥bTp
网络架构如下图所示。
每个品牌被表示成one-hot,作者考虑到独热编码的稀疏性可能不利于模型学到有鉴别性的特征表示,新增了可学习的矩阵
A
A
A来强化每个品牌的表示,相当于给品牌表示进行了升维。
图像特征利用VGG16进行提取并保存,加快训练速度。之后对图像特征进行两次线性变换,中间使用LRelu进行激活。
rankLoss计算如下 :
L
(
b
,
p
x
,
p
y
)
=
max
(
0
,
f
(
b
,
p
y
)
−
f
(
b
,
p
x
)
+
η
)
L(b,p_x,p_y) = \max(0,f(b,p_y)-f(b,p_x)+\eta)
L(b,px,py)=max(0,f(b,py)−f(b,px)+η)
η
\eta
η是预设的margin。
2.3结果评价标准
Metric | Range | Description |
---|---|---|
AUC | [0-1] | Probability that the classifier will rank a randomly chosen positive example higher than a randomly chosen negative one. |
cAUC | [0-1] | Probability that the classifier will rank a randomly chosen positive example higher than a randomly chosen negative sample from a competitor. |
N D C G x NDCG_x NDCGx | [0-1] | Measures the quality of a ranking list based on the post position in the sorted result list. Truncated at x. The higher the better. |
MedR | [0-inf] | The median position of the first relevant document. The lower the better. |
cAUC主要用于在同一个垂直领域的各品牌进行比较,用来评价模型学习到的特征是否具有细粒度的鉴别能力。
MedR是检索结果中第一个正例的中位数位置。值越小说明模型的能力越强。