推荐算法基础之协同过滤

推荐算法兴起的原因是解决信息过载问题。对于信息过载问题,常见有两种解决方式——搜索引擎和推荐算法。

  • 搜索引擎是用户已经有明确需求于是上网搜索,但其会有马太效应,即越流行的越流行,长期不被人关注的东西越来越被人遗忘。
  • 推荐算法是用户需求不明确,推荐系统通过用户的历史行为或者用户的兴趣偏好或者用户的人口统计学特征来为用户推荐,且推荐算法可完美呈现长尾理论,即曝光度低的物品可能获利不低。

作为推荐系统最基本的算法之一——协同过滤,其在推荐算法领域有着极为广泛的应用。

协同过滤简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息,回应不一定局限于特别感兴趣的,特别不感兴趣信息的纪录也相当重要。

以用户为基础(User-based)的协同过滤(通过计算用户之间相似度来推荐)和以项目为基础(Item-based)的协同过滤(通过计算物品之间相似度来推荐)统称为以记忆为基础(Memory based)的协同过滤技术,他们共有的缺点是数据稀疏,难以处理大数据量影响即时结果,因此发展出以模型为基础的协同过滤技术。 以模型为基础的协同过滤(Model-based Collaborative Filtering)是先用历史数据得到一个模型,再用此模型进行预测。以模型为基础的协同过滤广泛使用的技术包括Latent Semantic Indexing、Bayesian Networks…等,根据对一个样本的分析得到模型。另外一种分类方法(本质上都是能否处理大数据量)是以是否使用机器学习算法。不使用机器学习算法的称为Memory based,反之为Model based。

一般说来,计算用户之间的相似度比物品之间的复杂度要高的多,但是,通过计算用户之间的相似度来进行推荐往往可以获得较好的效果,而总是推荐相似的物品就比较普通。

当前协同过滤存在问题主要是数据稀疏和冷启动问题。

  • 数据稀疏可以通过用户聚类、商品聚类等方式缓解。
  • 冷启动则比较复杂,大公司可以通过产品线数据分享等方式,或者注册页尽量获取信息,以及老虎机算法等方式来解决这个问题。
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值