推荐系统常见问题(一):数据集按照用户行为比例进行划分的问题?

问题:数据集按照用户行为比例进行划分的问题?

推荐系统若按照每个用户的交易记录按比例进行数据集的划分,比如每个用户留下80%的数据作为训练集,20%的数据作为测试集,那么对于一个有5个交易记录的用户来说,训练集应该有4个,测试集应该有1个,但是有时候不是这样的情况?

我觉得还是取决于自己的代码怎么写,一般会有以下两种写代码的方式:

  1. 比如如果是直接计数的代码,直接把用户交易数据的前80%个数据留下来作为训练集,后20%作为测试集,这种情况不会出现问题。
  2. 如果使用的是random函数生成(0,1)之间的数,小于等于0.8的数据作为训练集,其他作为测试集,由于random函数是一个采样的过程,它遵循的是某种分布(具体不同的random函数遵循的分布不一样),所以并不一定能够保证5个数据中,完全是4个划分到训练集,1个划分到测试集。
 if random.random() < 0.9:
    self.trainset.append([user,item,rating])
 else:
    self.testset.append([user,item,rating])

但,不管怎么,以上两种代码都是可以写的,都没有任何问题。

这是原问题链接

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值