如何在模型中融合内容信息_模型与属性信息空间关系融合-CSDN博客

本文链接：https://blog.csdn.net/qq_20599123/article/details/51564109

如何在模型中融合内容信息

COM：群推荐的生成模型

3.5 融合内容信息

　　我们使用两个推荐任务来阐述如何融合在模型中融合内容信息，这两个推荐任务分别是场地推荐和电影推荐。
　　针对群体的场地推荐 人们经常会一起去某地购物，聚餐。针对群体的场地推荐旨在推荐群成员感兴趣的场地。对于场地推荐，地理距离是一个重要因素。之前的研究表明用户倾向于访问附近的场地，而访问场地的意愿也随着该地点到自身位置的距离增加而减小。这里我们采用一种关于幂律的距离函数来对用户访问某地的意愿进行建模。具体地，用户访问一个距离自己d千米的地点的意愿定义如式14：

w i (d) = ω \cdot d κ (14)

$wi(d) = \omega \cdot d^{\kappa} (14)$
其中

ω $\omega$ 和

κ $\kappa$ 是幂律参数，可以通过最大似然估计学习得到。
　　然后，给定一个用户

u $u$ ，他访问过的场地

Iu $I_u$ ，我们可以根据地理距离计算每个候选场地

i $i$ 的访问概率，定义该值为

ρu,i $\rho _{u,i}$ 。根据贝叶斯规则，

P(i|Iu) $P(i|I_u)$ 可以根据如下公式计算：

ρ u, i = P (i | I u) \propto P (i) P (I u | i) = P (i) \prod i' \in I u P (i' | i) (15)

$\rho_{u,i} = P(i|I_u) \propto P(i)P(I_u|i) = P(i) \prod_{i' \in I_u}P(i'|i) (15)$
其中

P(i′|i) $P(i'|i)$ 正比于式14的意愿值，其中

d $d$ 是场地

i′ $i'$ 和

i $i$ 的距离。
　　* 群体电影推荐 * 当选择该看哪部电影时，用户可能会考虑多个因素，如流派，演员等等。我们以演员为例，阐述如何利用内容信息。直观上，用户倾向于观看他们最喜欢的演员表演的电影。我们通过调整先验

ρu,i $\rho_{u,i}$ 融合了用户

u $u$ 对电影

i $i$ 基于演员的考虑:

ρ u, i \propto \sum s \in S i P (s | u) (16)

$\rho_{u,i} \propto \sum_{s \in S_i} P(s|u) (16)$
其中

s $s$ 是一个电影明星，

Si $S_i$ 是电影

i $i$ 中的演员表。

P(s|u) $P(s|u)$ 是基于用户

u $u$ 的观看历史中

s $s$ 的出现次数估计得到的。

利用基于特征的完全交互张量分解方法预测广告点击率

基于特征的FCTF模型

　　广告点击率预测会遇到比推荐更加稀疏的情况，不过较好的方面就是关于用户、广告商和广告有着很多的特征信息。例如用户有标签和位置信息。我们将这些信息融入到FCTF（完全交互张量分解方法）模型中以有效缓解数据稀疏度的问题。类似的思想在Koren和Chen的文章中有出现。
　　实际中，我们将数据集中的所有信息分成两类。一类称作单值属性，例如区域或者城市，一个用户在每个对应领域上至多有一个属性值。另一类我们称之为多值属性，例如用户的标签，用户可能有多个标签，甚至是没有。对这些多值属性进行标准化很有好处。
　　以用户的表示为例，假设用户 $u$ 只有一个多值特征标签，多个单值特征。将 $T(u)$ 表示为用户 $u$ 的标签集合， $C(u)$ 表示其它单值属性集合，然后用户 $u$ 可以用式15来表示：

u u = | T (u) | - 0.5 \sum i \in T (u) t i + \sum c \in C (u) u c

$u_u = |T(u)|^{-0.5} \sum_{i \in T(u)} t_i + \sum_{c \in C(u)} u_c$
其中

ti∈Rf $t_i \in R^f$ 是标签

i $i$ 的隐特征，

uc∈Rf $u_c \in R^f$ 是属性

c $c$ 的隐特征。

|T(u)|−0.5 $|T(u)|^{-0.5}$ 是多值特征标签的标准化稀疏。
　　类似地，我们可以对发布商p和广告a进行类似的处理。

C(p) $C(p)$ 可以用来刻画发布商

p $p$ 的单值属性，

C(a) $C(a)$ 可以用来描述广告

a $a$ 。

添加偏差

　　分解模型的好处在于可以灵活地处理不同的数据维度。不过，在点击事件中有些观测差异是由于用户，发布商或者广告的本身的偏差，与任何交互无关。例如，有些用户更偏向与点击家具类的广告，有些广告收到的点击数多于其它用户，更具流行性因此，与 $\hat{r}_{u,p,a}$ 相关的偏差 $\hat{b}$ 用式18表示：