推荐系统-利用用户行为数据判断用户间或商品间相似性、分类和个性化推荐

前言:

总算开始了个人博客-菜鸟成长室(http://blog.csdn.net/wangdaiyin)输出的第一步,转载请注明文章来源!


推荐系统概念:

简单来说,个性化推荐系统是一种解决信息过载问题的技术,它是根据用户的兴趣爱好,推荐符合用户个性化的对象,可以帮助用户找到想要的商品/新闻/音乐等、能降低信息过载问题、提高站点的点击率/转化率、加深对用户的了解并进一步提供定制化服务。它已广泛应用于许多领域,如电商,音乐、搜索、阅读、话题、广告等。


推荐算法大概可以分为基于流行度的算法(简单暴力,现应用较少)、协同过滤算法、基于内容的算法、基于模型的算法、混合算法等

目前最热门的个性化推荐技术是协同过滤推荐(Collaborative Filtering, CF),包括基于用户的协同过滤和基于物品的协同过滤推荐,它主要基于邻居用户/相似物品的信息得到目标用户的推荐,简单理解也就是假设喜欢类似物品的用户可能有相同或者相似的口味和偏好。其次,当缺少评分等数据时,基于内容的推荐算法常被用到,比如根据用户所浏览新闻的内容和行为(新闻停留时间、评论等)来推送相关新闻。再者,我们可以基于模型算法(如逻辑回归、隐语义模型等)通过分析系统中用户行为和购买记录等数据来进行拟合,学习出相关模型进行预测和推荐。基于模型的算法理论基础清晰,实现快速,适用于实时性比较高的业务如新闻、广告等,若想达到更好的效果,常需要人工干预反复地进行属性的组合和筛选。

现实应用中,很少有直接用某种单一算法来做推荐系统,往往通过混合算法融合多种算法进行推荐。比如我们可以通过给不同算法的结果加权重来综合结果,或者是在不同的计算环节/板块中运用不同的算法来混合,达到更贴合自己业务的目的。


推荐算法是否良好的评价指标:推荐准确度(准确率或召回率等)、覆盖率(各商品被推荐比例,会考虑信息熵、基尼指数等)、多样性、产生效益(点击率、转化率等)等。


数据来源:

用户数据分布大多满足长尾分布,比如用户活跃度与物品流行度的关联,简单地说,在互联网领域中,指的就是最热的那一小部分资源将得到绝大部分的关注,而剩下的很大一部分资源却鲜少有人问津。这不仅造成了资源利用上的浪费,也让很多口味偏小众的用户无法找到自己感兴趣的内容。数据主要来源于:

1.静态数据:如用户性别、年龄、地域、兴趣标签等注册信息以及位置、授权的社交好友信息等,结合简单分析物品的商品类别、推广/热门商品等信息建立相关表);举例:针对新加入用户进行商品推荐。

2.用户行为/交互数据:主要分为显性反馈行为(如5星评分、喜欢OR不喜欢、评论/标签等)和隐性反馈行为(历史商品购买行为、页面/商品浏览行为、购物车信息、客服咨询相关信息等,这些数据常需要经过处理和转化才可能有实际的用途)。


涉及关键问题:

0.冷启动问题:包括用户冷启动、物品冷启动、系统冷启动等,常见的解决方案有1)对于新用户先进行热门(/随机)推荐,对于新物品可考虑基于内容的推荐;2)利用静态数据可进行粗粒度的个性化等。

1.数据整理、分解与降维&#

  • 13
    点赞
  • 59
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值