推荐系统_数据分割train_valid_test

最新推荐文章于 2024-05-05 21:50:21 发布

Coding~Man

最新推荐文章于 2024-05-05 21:50:21 发布

阅读量740

点赞数

分类专栏：推荐系统文章标签：人工智能 python 算法

本文链接：https://blog.csdn.net/qq_40341502/article/details/125571360

版权

该博客详细介绍了推荐系统的数据划分方法，包括BPR、xDeepFM、RippleNet、GRU4RecF、BERT4Rec和LightGCN等模型。数据按User ID聚合后，以8:1:1比例划分为训练、验证和测试集。同时讨论了数据增强策略，如序列预测任务，用于提升推荐系统的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1:BPR推荐
用到inter数据文件。
[‘user_id’, ‘item_id’, ‘rating’, ‘timestamp’]
首先将数据self.shuffle()随机打乱。根据User的ID将数据聚合在一起。一个聚合了943个用户list。这每个list里面包含用户所购买的商品信息。对于每个list我们按照8:1:1的比例分割成train_data, valid_data ,test_data。

def _grouped_index(self, group_by_list):
        index = {
   }
        for i, key in enumerate(group_by_list):
            if key not in index:
                index[key] = [i]
            else:
                index[key].append(i)
        return index.values()
        #实现了将item聚合到不同的list。

2:xDeepFM推荐
用到inter数据文件，item数据文件, user数据文件。
[‘user_id’, ‘item_id’, ‘timestamp’, ‘age’, ‘gender’, ‘occupation’, ‘release_year’, ‘class’, ‘label’]
label标签的值根据设置的阈值来确定。
首先将数据self.shuffle()随机打乱。根据User的ID将数据聚合在一起。一个聚合了943个用户list。这每个list里面包含用户所购买的商品信息。对于每个list我们按照8:1:1的比例分割成train_data, valid_data ,test_data。

def _grouped_index(self, group_by_list):
        index = {

最低0.47元/天解锁文章