Mining Massive Datasets课程笔记(四)推荐系统

本文是Mining Massive Datasets课程笔记,探讨推荐系统的基本模型、内容基础推荐、协同过滤及其优缺点,包括用户与物品相似度计算、评分预测和推荐方法的实现。还提到了评估推荐系统的标准及面临的问题。
摘要由CSDN通过智能技术生成

Recommender System 推荐系统

由于网络电商的兴起,商品由实体中有限的个数到互联网时代无数商品可以购买,使得长尾理论被广泛关注。这些都是推荐系统兴起的条件。推荐有多种类型,我们关注的是对个体用户的定制推荐。

Formal Model

这里写图片描述

Utility Matrix
这里写图片描述
上图是一个Utility Matrix的例子,A-D表示用户,矩阵中是用户对不同电影的评分。推荐系统的目标就是推测出空白处的评分。当然在现实场景中这个矩阵肯定是极其稀疏的,我们没必要推测所有空白栏的值,而是计算一部分评分较高的电影,作为根据用户喜好做出的推荐。

Key Problem

  1. 如何获取Utility Matrix中的R,即上例中的评分。
  2. 如何根据已有的用户评分推断用户对未评分item的喜好度。(主要关注高分部分)
  3. 如何评价推荐系统的推荐方法

下面来解决上述问题:

  1. Gathering Ratings获取评分

    • explicit
      ask people to rate items
      doesn’t scale: only a small fraction of users leave ratings and reviews

    • implicit
      Learn ratings from user actions

      • E.g., purchase implies high rating

      What about low ratings?

  2. Extrapolateing Utilities推断未知项
    主要的问题是utilities Matrix是非常稀疏的,而且许多用户没有对物品进行评分。
    推荐系统的推荐方法主要有三种:基于内容的,协同过滤以及基于隐含元素的。具体的方法实现在后面详细讲解。

  3. Evaluation将在后面的讲解。

Content-Based Recommendations

Main idea: 将与用户X打高分的物品相似的物品推荐给用户X。例如,有相同演员或导演的电影用户可能都喜欢,相似内容的文章或新闻用户可能都感兴趣以及将有共同好友的人推荐为好友等。
Sherryllll

Item Profiles
item profile 就是特定物品的特征,如电影的演员,导演,类型等特征就是电影的profile。
For each item,create an item profile.将item profile看作是一个向量。
因此,profile可以看成是item(document)的重要的特征或词。这个重要特征的选取往往使用的是TF-IDF。(TF-IDF的解释就不说了,可自行百度之)

User Profiles
根据已有的item profiles得到user profiles
Sherryllll
More Sophisticated aggregations possible

对于Boolean utilities Matrix,user profile的计算直接求平均即可。
但是对于任意数字评分,如1-5,由于不同用户的评分标准不同,则需要对数据进行一个归一化处理,图例:
这里写图片描述

有了这user profile x和item profile i后,要预测用户对于i的喜好,可以通过计算余弦相似度求得,即U(x, i)= con( θ)=(xi)/(|x||i|)

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值