推荐算法gru4rec之PaddlePaddle实现

最新推荐文章于 2024-06-08 19:50:16 发布

seeme2again

最新推荐文章于 2024-06-08 19:50:16 发布

阅读量1.7k

点赞数

本文链接：https://blog.csdn.net/seeme2again/article/details/103239080

版权

本文介绍了使用PaddlePaddle实现GRU4Rec模型的详细步骤，该模型针对session-based推荐，通过RNN捕捉用户行为序列。文章涵盖数据格式、模型框架、训练过程和评估结果，展示了在不同损失函数下的性能，并提供了训练和测试数据的预处理方法。

摘要由CSDN通过智能技术生成

注意
本项目代码包含多个文件, Fork并使用GPU环境来运行后, 才能看到项目完整代码, 并正确运行:

并请检查相关参数设置, 例如use_gpu, fluid.CUDAPlace(0)等处是否设置正确.

模型简介
session是服务器端用来记录识别用户的一种机制. 典型的场景比如购物车，服务端为特定的对象创建了特定的Session，用于标识这个对象，并且跟踪用户的浏览点击行为。我们这里可以将其理解为具有时序关系的一些记录序列。本示例就是基于session的推荐算法实现，目的是为了根据用于一个序列的行为来预测他的下一次点击行为。本项目是论文Session-based Recommendations with Recurrent Neural Networks的复现，模型框架图如下：

模型框架图
论文的贡献在于首次将RNN（GRU）运用于session-based推荐，相比传统的KNN和矩阵分解，效果有明显的提升。
论文的核心思想是在一个session中，用户点击一系列item的行为看做一个序列，用来训练RNN模型。预测阶段，给定已知的点击序列作为输入，预测下一个可能点击的item。
session-based推荐应用场景非常广泛，比如用户的商品浏览、新闻点击、地点签到等序列数据。
支持三种形式的损失函数, 分别是全词表的cross-entropy, 负采样的Bayesian Pairwise Ranking和负采样的Cross-entropy。
文件结构
本项目的文件结构如下：

├── README.md					# 文档
├── train.py					# 训练脚本 全词表 cross-entropy
├── train_sample_neg.py				# 训练脚本 sample负例 包含bpr loss 和cross-entropy
├── eval.py					# 验证脚本 全词表
├── eval_sample_neg.py				# 验证脚本 sample负例
├── net.py		   			# 网络结构
├── text2paddle.py		  		# 文本数据转paddle数据
├── utils			       		# 通用函数
├── convert_format.py				# 转换数据格式
├── vocab.txt		    			# 小样本字典
├── checkpoints_model_sample_neg		# 用于存放sample负例训练过程中的checkpoints模型
├── checkpoints_model				# 用于存放全样本训练过程中的checkpoints模型
├── infer_model					# 全样本训练后固化的模型
├── infer_model_sample_neg			# sample负例训练后固化的模型
├── freeze.py					# 固化模型参数脚本 全词表
├── freeze_sample_neg.py			# 固化模型参数脚本 sample负例
├── infer.py					# 预测脚本 全词表
├── infer_sample_neg.py				# 预测脚本 sample负例
├── train_data					# 小样本训练目录
└── test_data					# 小样本测试目录

数据格式介绍

本示例使用样例数据进行训练和测试
具体的数据格式可参考train_data/small_train.txt

197 196 198 236
93 93 384 362 363 43
336 364 407
421 322
314 388
128 58
138 138
46 46 46
34 34 57 57 57 342 228 321 346 357 59 376
110 110

该数据属于样例数据，数据量较小仅供展示使用，实际中可以使用RSC15数据集来进行模型的训练和测试
RSC15数据集的下载及其预处理过程如下：

RSC15数据集下载

curl -Lo yoochoose-data.7z https://s3-eu-west-1.amazonaws.com/yc-rdata/yoochoose-data.7z
7z x yoochoose-data.7z

GRU4REC的数据过滤，下载脚本https://github.com/hidasib/GRU4Rec/blob/master/examples/rsc15/preprocess.py 脚本中的文件路径需要修改：

PATH_TO_ORIGINAL_DATA = './'
PATH_TO_PROCESSED_DATA = './' 该脚本需要在python3下执行

生成的数据格式如下：

SessionId    ItemId    Time
1    214536502    1396839069.277
1    214536500    1396839249.868
1    214536506    1396839286.998
1    214577561    1396839420.306
2    214662742    1396850197.614
2    214662742    1396850239.373
2    214825110    1396850317.446
2    214757390    1396850390.71
2    214757407    1396850438.247

数据格式需要转换, 运行脚本如下:

python convert_format.py 模型的训练及测试数据如下，一行表示一个用户按照时间顺序的序列

214536502 214536500 214536506 214577561
214662742 214662742 214825110 214757390 214757407 214551617
214716935 214774687 214832672
214836765 214706482
214701242 214826623
214826835 214826715
214838855 214838855
214576500 214576500 214576500
214821275 214821275 214821371 214821371 214821371 214717089 214563337 214706462 214717436 214743335 214826837 214819762
214717867 214717867

根据训练和测试文件生成字典和对应的paddle输入文件

需要将训练文件放到目录raw_train_data下，测试文件放到目录raw_test_data下，并生成对应的train_data，test_data和vocab.txt文件

python text2paddle.py raw_train_data/ raw_test_data/ train_data test_data vocab.txt

转化后的格式与train_data/small_train.txt文件一致

可通过如下命令进行训练，默认使用单机单卡进行训练，如果是多卡环境࿰

最低0.47元/天解锁文章

seeme2again

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
推荐算法gru4rec之PaddlePaddle实现

注意本项目代码包含多个文件, Fork并使用GPU环境来运行后, 才能看到项目完整代码, 并正确运行:并请检查相关参数设置, 例如use_gpu, fluid.CUDAPlace(0)等处是否设置正确.模型简介session是服务器端用来记录识别用户的一种机制. 典型的场景比如购物车，服务端为特定的对象创建了特定的Session，用于标识这个对象，并且跟踪用户的浏览点击行为。我...
复制链接

扫一扫