top n推荐的数据集划分和评价指标

最新推荐文章于 2023-10-15 17:51:47 发布

canaryW

最新推荐文章于 2023-10-15 17:51:47 发布

阅读量715

点赞数

分类专栏： graph ML&&DL 文章标签：深度学习 pytorch 自然语言处理

本文链接：https://blog.csdn.net/cobracanary/article/details/120058980

版权

16 篇文章 2 订阅

订阅专栏

最近在做top n推荐，但是无论怎么做都达不到其它论文里那么高的hit radio，于是我仔细地看了这篇论文—《Neural Collaborative Filtering》，发现其在实验部分有许多trick，使得实验数据看起来非常漂亮。

数据集划分–留一法
我们要想评价数据集训练效果，就要让整个数据集划分为训练集和测试集，对于推荐系统而言，训练集越多，语义月丰富，推荐效果趋向于越好。举个极端的例子，如果训练集很小，那么就会遇到冷启动的问题，因此，这篇论文当中对于每一个用户，只选取最近的item交互记录作为测试集，其它全都选做训练集。
模型效果评价-负采样
我做的评价方法太实诚，就是将整个图上面的item排序，然后计算HR@k，但是这篇论文是采用一种负采样的方法：对于用户真实交互的那个记录，我们在图中采样100个与用户没用进行交互的物品，然后把这101个item排序，再在这个列表中计算HR@k，可以料想，这种方式也可以大大提高hit radio，让你的实验数据变得非常漂亮。

关注