机器学习和数据挖掘在个性化推荐系统中的应用

个性化推荐系统出了满足用户的需求,也应兼顾信息提供者的利益,将他们的信息以最高的效率投放给对信息感兴趣的用户。

 

个性化推荐系统的算法都是来自于机器学习和数据挖掘,特殊之处在于对用户行为和用户心理的研究。

 

根据兴趣将用户聚类,也就是一种降维方法。机器学习的降维方法可以分为硬聚类和软聚类,硬聚类的代表算法是Kmeans和层次聚类,硬聚类的缺点是限制了用户兴趣只能属于一种类别,而在现实生活中,用户的兴趣是多种多样的。

在推荐系统中应用最广泛的软聚类算法是主题模型(topic model)。在主题模型中,每个类被称为隐类(latent class),而每个文档在不同的隐类上都有一个概率分布来表示文档属于该类的概率。目前,基于概率的主题模型比较流行,这是因为他能够提供统一的量纲(概率),同时可以方便的加入各种先验知识。

 

推荐系统的另外一个比较著名的模型是隐因子模型(Latent Factor Model),LFM是一种基于矩阵分解的降维方法,用于解决用户对物品评分的预测问题。LFM是基于连续空间的,而LCM是基于离散空间的。此外LFM提供的用户特征向量和物品特征向量也不是基于概率解释的。

 

为了能迅速找到目标,推荐系统一般会利用倒排索引。如常见的几种推荐系统:基于人口统计学的推荐系统,基于物品的推荐系统,基于位置的推荐系统。这些推荐系统的主要区别在于使用的用户特征以及计算“特征-物品”索引的算法不同。比如基于人口统计学的推荐系统是按照年龄、性别等特征索引,而每个性别年龄段都记录了和该性别年龄段最相关的物品; 基于物品的推荐系统是按照物品的ID索引,而每个物品都记录了和它最相关的其它物品。

 

主题模型可以用来对词空间进行降维,主要用于短文本的语义分析问题。

 

用于点击率预估的分类器需要满足条件如下:

可以在大规模数据集上训练分类器模型;

需要知道一个样本是正样本还是负样本,还需要知道是正样本的概率,而这个概率就是预估的点击率!!!!

可以增量更新;

预估点击率是效率很高,能够满足在线实时预估的要求;

能够提供预估点击率的置信度;

很容易提供预估结果的解释,比如提供一个用户对一个物品的预估点击率很高的原因。

目前能够同时满足以上条件的分类算法主要是逻辑回归(Logistic Regression)。目前工业界用的比较多的LR算法主要有:

基于极大似然,用随机梯度下降法优化;

LBFGS;

基于贝叶斯网络,利用期望传播(Expectation Propagation)优化。

 

LR是线性模型,在线预测的性能可以得到保证。并且其模型训练已有成熟的并行化策略,可以用到大规模的数据集上。LR的模型可以增量更新,如果使用基于在线学习的优化方法(online learning),可以实现模型的在线更新;如果使用基于贝叶斯网络的LR,可以提供预测结果的置信度;在进行预测结果的解释上,可以提供权重高的特征作为解释。

 

LR算法适用于特征、样本很多的情况。如果遇到特征很少(少于100个特征)、样本很多的问题,一般使用决策树的算法。这是因为在特征很少时,问题往往是非线性的,此时可以发挥决策树算法的优势。

 

将点击率预估问题转换为两类分类问题的方法,其实是排序学习(Learning to rank, LTR)中的按点(point-wise)算法。除了按点,还有按对(pair-wise)和按表(list-wise)算法。Netflix公司就在其推荐系统中全面应用LTR技术。

 

转自:http://blog.sina.com.cn/s/blog_c2f30b1101019xtv.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值