如何评估序列推荐模型?

有很多论文探讨如何构建优秀的序列推荐模型,但是这篇论文<A Case Study on Sampling Strategies for Evaluating Neural Sequential Item Recommendation Models>探讨如何评估这些序列推荐模型。最常见的评估方式是用一个较小的item子集,该集合包含所有相关items,和大量负采样的items(从全集中采样),有两种采样方法,一种是均匀随机采样,另一种是用流行度进行采样,这样更符合item在整个集合出现的分布。大部分论文都用基于流行度采样的的方式去评估比较各个序列推荐模型,然而该论文发现这种评估方式是错的,和对不采样进行评估相差很大,所以使用流行度进行负采样和用全部item进行评估是否存在差异呢?这篇论文就比较了当前比较“出众”的序列化模型在不同评估方式的区别,并给出结论。

实验配置

训练集测试集构造方式很简单,每个人都会有个交互序列,去掉后面两个,前面的序列用于训练,倒数第二个是预估,最后一个用于测试。评估指标就是最常见的HR@K和NDCG@K:

v2-4485c22ec4d10985821e2b8c5a818dc5_b.jpg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值