如何在模型中融合内容信息

原创 2016年06月02日 09:58:57

如何在模型中融合内容信息

COM:群推荐的生成模型

3.5 融合内容信息

  我们使用两个推荐任务来阐述如何融合在模型中融合内容信息,这两个推荐任务分别是场地推荐和电影推荐。
  针对群体的场地推荐 人们经常会一起去某地购物,聚餐。针对群体的场地推荐旨在推荐群成员感兴趣的场地。对于场地推荐,地理距离是一个重要因素。之前的研究表明用户倾向于访问附近的场地,而访问场地的意愿也随着该地点到自身位置的距离增加而减小。这里我们采用一种关于幂律的距离函数来对用户访问某地的意愿进行建模。具体地,用户访问一个距离自己d千米的地点的意愿定义如式14:

wi(d)=ωdκ(14)

其中ωκ是幂律参数,可以通过最大似然估计学习得到。
  然后,给定一个用户u,他访问过的场地Iu,我们可以根据地理距离计算每个候选场地i的访问概率,定义该值为ρu,i。根据贝叶斯规则,P(i|Iu)可以根据如下公式计算:
ρu,i=P(i|Iu)P(i)P(Iu|i)=P(i)iIuP(i|i)(15)

其中P(i|i)正比于式14的意愿值,其中d是场地ii的距离。
  * 群体电影推荐 * 当选择该看哪部电影时,用户可能会考虑多个因素,如流派,演员等等。我们以演员为例,阐述如何利用内容信息。直观上,用户倾向于观看他们最喜欢的演员表演的电影。我们通过调整先验ρu,i融合了用户u对电影i基于演员的考虑:
ρu,isSiP(s|u)(16)

其中s是一个电影明星,Si是电影i中的演员表。P(s|u)是基于用户u的观看历史中s的出现次数估计得到的。

利用基于特征的完全交互张量分解方法预测广告点击率

基于特征的FCTF模型

  广告点击率预测会遇到比推荐更加稀疏的情况,不过较好的方面就是关于用户、广告商和广告有着很多的特征信息。例如用户有标签和位置信息。我们将这些信息融入到FCTF(完全交互张量分解方法)模型中以有效缓解数据稀疏度的问题。类似的思想在Koren和Chen的文章中有出现。
  实际中,我们将数据集中的所有信息分成两类。一类称作单值属性,例如区域或者城市,一个用户在每个对应领域上至多有一个属性值。另一类我们称之为多值属性,例如用户的标签,用户可能有多个标签,甚至是没有。对这些多值属性进行标准化很有好处。
  以用户的表示为例,假设用户u只有一个多值特征标签,多个单值特征。将T(u)表示为用户u的标签集合,C(u)表示其它单值属性集合,然后用户u可以用式15来表示:

uu=|T(u)|0.5iT(u)ti+cC(u)uc

其中tiRf是标签i的隐特征,ucRf是属性c的隐特征。|T(u)|0.5是多值特征标签的标准化稀疏。
  类似地,我们可以对发布商p和广告a进行类似的处理。C(p)可以用来刻画发布商p的单值属性,C(a)可以用来描述广告a

添加偏差

  分解模型的好处在于可以灵活地处理不同的数据维度。不过,在点击事件中有些观测差异是由于用户,发布商或者广告的本身的偏差,与任何交互无关。例如,有些用户更偏向与点击家具类的广告,有些广告收到的点击数多于其它用户,更具流行性因此,与r^u,p,a相关的偏差b^用式18表示:

b=tT(u)btT(u)+cC(u)(18)

  符号bt表示的是标签t的观测偏差,bc表示的是用户u,发布商p或者广告a的特征c的观测偏差。

版权声明:本文为博主原创文章,未经博主允许不得转载。

模型融合方法

本文是《KAGGLE ENSEMBLING GUIDE》一文的阅读笔记,忽略了一些不感兴趣的内容,原文请阅:https://mlwave.com/kaggle-ensembling-guide/ ...
  • sinat_29819401
  • sinat_29819401
  • 2017年05月05日 09:36
  • 4168

基于模型融合的推荐系统实现(3):模型融合

基本思路很简单,最小二乘法就好了:我们假设两个算法得到的结果权重分别是a,b利用最小二乘法和我们分出来的第二部分数据就可以获取a,b使得误差最小。其实最小二乘法就是求一个广义的逆即可。最后的RMSE比...
  • pp634077956
  • pp634077956
  • 2016年11月29日 19:19
  • 818

kaggle模型融合简单入门

#这个题属性其实就两种 类别属性和数值属性 和Tantic不太一样我们可以统一处理 #处理类别属性但是值却是数字的特征 #MSSubClass 的值其实应该是一个category,是住宅属性 可是取值...
  • hhy518518
  • hhy518518
  • 2017年02月07日 20:51
  • 1941

机器学习总结7_从模型融合到Adaboost

0.从模型融合开始说起。 有时候我们会想到这么一个问题:我们能不能把几个模型融合在一起达到更好的效果呢?当然可以了。 假设现在有g1,g2,..gng_1,g_2,..g_n,这n个模型,将这n个...
  • hulingyu1106
  • hulingyu1106
  • 2016年06月16日 18:22
  • 1901

stacking 模型融合

结合策略 假定集成包含T个基学习器,其中h_i在示例x上的输出为h_i(x). 对于数值型的输出,最常见的结合策略是averaging.分为simple averaging 和 weigh...
  • yc1203968305
  • yc1203968305
  • 2017年06月21日 08:57
  • 701

多任务融合的模型

**1.Multi-task Learning with Weak Class Labels: Leveraging iEEG to Detect Cortical Lesions in Crypto...
  • qq_21460525
  • qq_21460525
  • 2017年05月04日 16:34
  • 273

集成学习-模型融合学习笔记

集成学习概念个人理解是按照不同的思路来组合基础模型,在保证准确度的同时也提升了模型防止过拟合的能力。 三种常见的集成学习框架:bagging,boosting和stackingboosting算法A...
  • q383700092
  • q383700092
  • 2016年12月10日 11:33
  • 3238

信息融合学习笔记

一、基本概念 传感器是一种能把物理量或化学量转变成便于利用的电信号的器件。目前对于信息融合有多种不同的定义。其中美国国防部JDL(Joint Directors of Laboratories)的定...
  • scutan
  • scutan
  • 2013年05月02日 22:35
  • 5102

[源代码]基于D-S证据理论的雷达探测信息融合

(节选自《基于粗糙集与卡尔曼法的防空雷达信息融合技术》) 参考文档:http://wenku.baidu.com/view/c52cce66bceb19e8b9f6bade 源代码如下: clear...
  • appe1943
  • appe1943
  • 2016年03月21日 12:30
  • 1412

笔记︱集成学习Ensemble Learning与树模型、Bagging 和 Boosting、模型融合

基本内容与分类见上述思维导图。 . .一、模型融合方法 . 概述本文参考:模型融合的【机器学习】模型融合方法概述 概况有五个部分:Voting、Averaging、Bagging 、Boosti...
  • sinat_26917383
  • sinat_26917383
  • 2017年01月22日 10:46
  • 3423
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:如何在模型中融合内容信息
举报原因:
原因补充:

(最多只允许输入30个字)