【创新实训】推荐系统实验2(修改模型、混合数据集)

数据集

混合的数据集

单独使用douban_imdb训练确实有效果,但是因为是国外的数据集,国外电影占绝大部分,国内电影推荐效果非常差。

douban_csdn数据集最稀疏,训练不出效果,mtime、douban_openkg指标还行,单独来用item太少。因此拟将这三个数据集混合在一起。

douban_imdb电影频数往往达到五六万往上,其他数据集的频数比较而言太小了,需要删除douban_imdb的部分行。于是,我将所有数量大于1000的item,随机删除记录,只保留(500 + len(group) // 50)行。

if dataset == 'douban_imdb':
    df = pd.DataFrame()
    for iid, group in tqdm(data.groupby('iid')):
        if len(group) > 1000:
            left = np.random.choice(group.index.tolist(), 500 + len(group) // 50, replace=False)
            df = df.append(group.loc[left])
        else:
            df = df.append(group)
    data = df
    del df`

这里使用的是分组,注意遍历的不能是iid,不然每次都得查询,速度很慢(30min->5min)。

统计

原数据集

Datasetsall the clicksall the itemsall the usersdensity
douban_imdb9,130,04310,634162,2240.53%
mtime103,39313,45513,8350.06%
douban_openkg424,7991,10064,7590.60%

划分sess之后

Datasetsall the clicksall the itemstrain sessionstest sessionstrain avg.length
douban_imdb946,0356,865692,84784,39615.3
mtime9,3673,23361661,06714.9
douban_openkg16,74589610,0972,2164.3
mix972,14710,692709,11087,6794.3

mix最后能跑到recall@20 27%,mrr@20 9%,和douban_imdb差不多

对NARM的改动

因为NARM得到的session representation是global和local的拼接,维度是2*hidden size,即最初输入的两倍。为了使其作为新的用户表示存入数据库,需要调整维度。
在这里插入图片描述

一种方法是,对于 R 2 ∣ H ∣ R^{2|H|} R2H空间中串联的 c t c_t ct(注:为方便表示,这里 ∣ H ∣ {|H|} H是原论文的1/2),再经过一个线性变换到 R ∣ H ∣ R^{|H|} RH空间中(类似于多模态的做法),即
u = W c t \begin{aligned} u = Wc_t \end{aligned} u=Wct

第二种方法是,原论文在最后计算scores时,先将 R ∣ D ∣ R^{|D|} RD的emb映射到 R ∣ H ∣ R^{|H|} RH
在这里插入图片描述
事实上是 S i = ( B T e m b i ) T c t S_i = (\pmb{B^T}emb_i)^Tc_t Si=(BTBTBTembi)Tct

我们也可以先映射会话表示,即 S i = e m b i T ( B c t ) S_i = emb_i^T(\pmb{B}c_t) Si=embiT(BBBct),于是将
c t c_t ct映射到 R ∣ D ∣ R^{|D|} RD上。存入数据库也即 ∣ D ∣ |D| D维,在输入时,借鉴GGNN的做法,用0扩展为|H|维。
在这里插入图片描述
当然,第二种方法会带来一定的损失,第一种方法增加了复杂度,都有缺点。

先在diginetica数据集上进行实验,查看效果。

Recall@20MRR@20
N A R M o r i g i n NARM_{origin} NARMorigin53.1518.22
N A R M l i n e a r NARM_{linear} NARMlinear52.1918.19
N A R M l i n e a r − b i a s NARM_{linear-bias} NARMlinearbias52.7918.10
N A R M H 2 D NARM_{H2D} NARMH2D53.1618.23

可以看到差别不大,但加一层linear(第一种方法)效果有所下降,先映射(第二种)几乎没有变化(数学上一致的)。

第二种方法还可以减少硬盘占用,因此采取该方法。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值