论文笔记:Uniform Sequence Better: Time Interval Aware Data Augmentation for Sequential Recommendation

2023 AAAI

1 intro

1.1 背景

  • 序列推荐:根据用户的历史交互序列预测下一个时间点用户访问的项目
  • 论文发现序列中两个项目交互的时间间隔并没有得到广泛的关注,特别是考虑到兴趣偏移时。

  • 图1是从真实数据集中抽取的一个例子。
    • 两个用户拥有相同长度的交互序列,但他们交互间隔的分布却相差很多。
    • 用户1的时间间隔分布相对用户2更为均匀。
    • 用户1购买的大多数产品都属于皮肤/面部护理类别,而用户2购买的产品类别却随着时间发生了较大的改变(从发胶到睫毛膏,从睫毛膏到保湿霜)。
    • 由于用户1的序列比其他用户分布更均匀,因此模型可以更好地学习用户偏好。
    • 作者将用户1这种序列称为“均匀序列”,用户2称为“非均匀序列”。

1.2 论文思路

  • 本文进行了实证研究来进一步验证这一猜想(均匀序列比非均匀序列可以显著提高序列推荐的性能
  • 然而,真实数据集中序列在时间间隔上不能均匀分布是一个很普遍的现象。
    • 基于实证研究的结果,作者提出了五个时间间隔感知的数据增强算子(Ti-Crop, Ti-Reorder, Ti-Mask, TiSubstitute, Ti-Insert)来将非均匀序列转换为均匀序列

2 实证研究

2.1 使用的数据集

2.2 均匀/非均匀序列的判断

  • 论文用序列时间间隔的标准差来判定序列是否均匀
    • 如果一个序列的时间间隔的标准差较小,那么它为均匀序列,如果时间间隔的标准差较大,那么它为非均匀序列。
  • 论文计算了数据集中所有序列时间间隔的标准差。
    • 通过设置不同的标准差阈值来分析数据集中均匀(非均匀)序列的数量
    • 横轴表示门槛值。
      • 门槛值是数据集中所有序列标准差的均值的比率(例如0.5表示门槛为标准差均值×0.5)
      • 序列的标准差小于门槛值即为均匀序列,大于门槛值即为非均匀序列
    • 纵轴表示此时均匀序列的百分比。
      • 总的来说非均匀序列占据了总体数据的很大一部分(40-50%)

2.3 实验验证“均匀序列比非均匀序列可以显著提高序列推荐的性能”

  • 对每个数据集的所有序列按时间间隔的标准差由小到大进行排名。采取了三种不同的划分方式。(U为均匀子集,N为非均匀子集)
    • 按用户划分(S):
      • 排名前50%用户一个子集(S:U),后50%一个子集(S:N)
      • 两个子集用户数相同,但交互数不同
    • .按交互数量划分(I)
      • 排名前50%的交互一个子集(I:U),后50%一个子集(I:N)
      • 两个子集交互数相同,用户数不同
    • 从数据集中随机抽取50%的序列(Random)

  • 从结果中,可以看出模型在均匀子集上的表现普遍好于非均匀子集。且随机子集的结果在均匀子集与非均匀子集中间,即非均匀<随机<均匀

3 论文方法(和传统的增强方法的对比)

  • 因为短序列对于裁切和遮盖更为敏感,所以参考CoSeRec,论文对不同长度的序列应用不同的数据增强算子
      • N为序列长度,K为区分长短序列的阈值。Su为算子集。
      • 每次数据增强时会从算子集中随机抽取两个进行数据增强,生成两个增强序列用于对比学习。 
      • 短序列不使用裁剪和重新排序

4 实验结果

  • 7
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UQI-LIUWJ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值