问题:数据集按照用户行为比例进行划分的问题?
推荐系统若按照每个用户的交易记录按比例进行数据集的划分,比如每个用户留下80%的数据作为训练集,20%的数据作为测试集,那么对于一个有5个交易记录的用户来说,训练集应该有4个,测试集应该有1个,但是有时候不是这样的情况?
我觉得还是取决于自己的代码怎么写,一般会有以下两种写代码的方式:
- 比如如果是直接计数的代码,直接把用户交易数据的前80%个数据留下来作为训练集,后20%作为测试集,这种情况不会出现问题。
- 如果使用的是random函数生成(0,1)之间的数,小于等于0.8的数据作为训练集,其他作为测试集,由于random函数是一个采样的过程,它遵循的是某种分布(具体不同的random函数遵循的分布不一样),所以并不一定能够保证5个数据中,完全是4个划分到训练集,1个划分到测试集。
if random.random() < 0.9:
self.trainset.append([user,item,rating])
else:
self.testset.append([user,item,rating])
但,不管怎么,以上两种代码都是可以写的,都没有任何问题。
这是原问题链接