推荐系统--用户行为和实验设计

最新推荐文章于 2024-04-17 09:30:07 发布

Omni-Space

最新推荐文章于 2024-04-17 09:30:07 发布

阅读量2.4k

点赞数

Recommendation System 专栏收录该内容

3 篇文章

订阅专栏

本文介绍了推荐系统的用户行为数据类型及分析方法，并探讨了实验设计的重要性，包括数据集划分、评测指标选择等内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

主要介绍推荐系统用户行为数据、实验设计，是接下来算法实验的基础。

用户行为

用户行为数据

用户行为分为显性和隐性两种。

显性反馈行为(explicit feedback)
用户评分、喜欢/不喜欢
隐性反馈行为(implicit feedback)
页面浏览行为、消费行为

两者比较

如何表示用户：

user id
产生行为的用户
item id
产生行为的对象
behavior type
行为的种类(如购买还是浏览)
context
产生行为的上下文，包括时间和地点
behavior weight
行为的权重(用户评分、观看时长等)
behavior content
行为的内容(评论文本、标签等)

数据集的一般分类：

无上下文信息的隐性反馈数据集
包含 user id, item id
如 Book-Crossing
无上下文信息的显性反馈数据集
包含 user id, item id, 物品评分
有上下文信息的隐性反馈数据集
包含 user id, item id, 用户对物品产生行为的 timestamp
如 Lastfm
有上下文信息的显性反馈数据集
包含 user id, item id, 物品评分, 用户对物品产生行为的 timestamp
如 Netflix Prize

用户行为分析

物品流行度 和 用户活跃度 都近似于 长尾分布。下图表示用户活跃度和物品流行度的关系(MovieLens 数据集)。

一般认为，新用户倾向于浏览热门物品，因为对网站不熟悉，只能点击首页的热门物品，而老用户会逐渐开始浏览冷门物品。

仅仅基于用户行为数据设计的推荐算法一般称为协同过滤算法，有很多种方法，这里介绍 基于邻域的方法(neighborhood-based), 隐语义模型(latent factor model), 基于图的随机游走算法(random walk on graph)，这其中，最有名、在业界得到最广泛应用的算法是基于邻域的方法。接下来的博客会一一讨论这些算法。

实验设计

数据集

采用 GroupLens 提供的 MovieLens 数据集，选中等大小的数据集，包含 6000 多用户对 4000 多部电影的 100 万条评分。

实验目的

研究隐反馈数据集中的 Top N 推荐问题，因此忽略数据集中的评分记录。预测的是用户会不会对某部电影评分，而不是预测用户在准备对某部电影评分对前提下会给电影评多少分。

实验过程

离线实验。

将用户行为数据集均匀的随机分成 M 份(这里取 8)
挑一份作为测试集，剩下 M-1 份作为训练集
在训练集上建立用户兴趣模型，在测试集上评测，统计评测指标
M 次实验，每次使用不同的测试集
M 次试验的评测指标取平均值
防止过拟合
如果数据集够大，模型够简单，为了快速通过离线实验初步选择算法，也可以只进行一次实验

      
      
       
       def SplitData(data, M, k, seed):
      
      
      
      
       
           test = []
      
      
      
      
       
           train = []
      
      
      
      
       
           random.seed(seed)
      
      
      
      
       
           for user, item in data:
      
      
      
      
       
               if random.randint(0,M) == k:
      
      
      
      
       
                   test.append([user,item])
      
      
      
      
       
               else:
      
      
      
      
       
                   train.append([user,item])
      
      
      
      
       
           return train, test

评测指标

准确率
召回率
覆盖率
新颖度

      
      
       
       def Precision(train, test, N):
      
      
      
      
       
           hit = 0
      
      
      
      
       
           all = 0
      
      
      
      
       
           for user in train.keys():
      
      
      
      
       
               tu = test[user]
      
      
      
      
       
               rank = GetRecommendation(user, N)
      
      
      
      
       
               for item, pui in rank:
      
      
      
      
       
                   if item in tu:
      
      
      
      
       
                       hit += 1
      
      
      
      
       
               all += N
      
      
      
      
       
           return hit / (all * 1.0)
      
      
      
      
       
       def Recall(train, test, N):
      
      
      
      
       
           hit = 0
      
      
      
      
       
           all = 0
      
      
      
      
       
           for user in train.keys():
      
      
      
      
       
               tu = test[user]
      
      
      
      
       
               rank = GetRecommendation(user, N)
      
      
      
      
       
               for item, pui in rank:
      
      
      
      
       
                   if item in tu:
      
      
      
      
       
                       hit += 1
      
      
      
      
       
               all += len(tu)
      
      
      
      
       
           return hit / (all * 1.0)
      
      
      
      
       
       def Coverage(train, test, N):
      
      
      
      
       
           recommend_items = set()
      
      
      
      
       
           all_items = set()
      
      
      
      
       
           for user in train.keys():
      
      
      
      
       
               for item in train[user].keys():
      
      
      
      
       
                   all_items.add(item)
      
      
      
      
       
               rank = GetRecommendation(user, N)
      
      
      
      
       
               for item, pui in rank:
      
      
      
      
       
                   recommend_items.add(item)
      
      
      
      
       
           return len(recommend_items) / (len(all_items) * 1.0)
      
      
      
      
       
       def Popularity(train, test, N):
      
      
      
      
       
           item_popularity = dict()
      
      
      
      
       
           for user, items in train.items():
      
      
      
      
       
               for item in items.keys():
      
      
      
      
       
                   if item not in item_popularity:
      
      
      
      
       
                       item_popularity[item] = 0
      
      
      
      
       
                       item_popularity[item] += 1
      
      
      
      
       
           ret = 0
      
      
      
      
       
           n=0
      
      
      
      
       
           for user in train.keys():
      
      
      
      
       
               rank = GetRecommendation(user, N)
      
      
      
      
       
               for item, pui in rank:
      
      
      
      
       
                   ret += math.log(1 + item_popularity[item])
      
      
      
      
       
                   n += 1
      
      
      
      
       
           ret /= n * 1.0
      
      
      
      
       
           return ret

该实验设计用于接下来 基于邻域的方法(neighborhood-based), 隐语义模型(latent factor model), 基于图的随机游走算法(random walk on graph) 的博客中。

原文地址： http://www.shuang0420.com/2017/02/08/%E6%8E%A8%E8%8D%90%E7%B3%BB%E7%BB%9F--%E7%94%A8%E6%88%B7%E8%A1%8C%E4%B8%BA%E5%92%8C%E5%AE%9E%E9%AA%8C%E8%AE%BE%E8%AE%A1/