如何在模型中融合内容信息
COM:群推荐的生成模型
3.5 融合内容信息
我们使用两个推荐任务来阐述如何融合在模型中融合内容信息,这两个推荐任务分别是场地推荐和电影推荐。
针对群体的场地推荐 人们经常会一起去某地购物,聚餐。针对群体的场地推荐旨在推荐群成员感兴趣的场地。对于场地推荐,地理距离是一个重要因素。之前的研究表明用户倾向于访问附近的场地,而访问场地的意愿也随着该地点到自身位置的距离增加而减小。这里我们采用一种关于幂律的距离函数来对用户访问某地的意愿进行建模。具体地,用户访问一个距离自己d千米的地点的意愿定义如式14:
其中 ω 和 κ 是幂律参数,可以通过最大似然估计学习得到。
然后,给定一个用户 u ,他访问过的场地
其中 P(i′|i) 正比于式14的意愿值,其中 d 是场地
* 群体电影推荐 * 当选择该看哪部电影时,用户可能会考虑多个因素,如流派,演员等等。我们以演员为例,阐述如何利用内容信息。直观上,用户倾向于观看他们最喜欢的演员表演的电影。我们通过调整先验
其中 s 是一个电影明星,
利用基于特征的完全交互张量分解方法预测广告点击率
基于特征的FCTF模型
广告点击率预测会遇到比推荐更加稀疏的情况,不过较好的方面就是关于用户、广告商和广告有着很多的特征信息。例如用户有标签和位置信息。我们将这些信息融入到FCTF(完全交互张量分解方法)模型中以有效缓解数据稀疏度的问题。类似的思想在Koren和Chen的文章中有出现。
实际中,我们将数据集中的所有信息分成两类。一类称作单值属性,例如区域或者城市,一个用户在每个对应领域上至多有一个属性值。另一类我们称之为多值属性,例如用户的标签,用户可能有多个标签,甚至是没有。对这些多值属性进行标准化很有好处。
以用户的表示为例,假设用户
u
只有一个多值特征标签,多个单值特征。将
其中 ti∈Rf 是标签 i 的隐特征,
类似地,我们可以对发布商p和广告a进行类似的处理。 C(p) 可以用来刻画发布商 p 的单值属性,
添加偏差
分解模型的好处在于可以灵活地处理不同的数据维度。不过,在点击事件中有些观测差异是由于用户,发布商或者广告的本身的偏差,与任何交互无关。例如,有些用户更偏向与点击家具类的广告,有些广告收到的点击数多于其它用户,更具流行性因此,与
符号 bt 表示的是标签 t 的观测偏差,