推荐算法学习2-MXNET 实现movielen 融合个性化推荐

最新推荐文章于 2022-11-09 08:00:08 发布

米斯特river川

最新推荐文章于 2022-11-09 08:00:08 发布

阅读量2k

点赞数 1

分类专栏：机器学习文章标签：机器学习实例深度学习 mxnet 个性化推荐

本文链接：https://blog.csdn.net/weixin_30365635/article/details/70174005

版权

本文介绍了使用MXNET框架，根据MovieLens百万数据集构建融合推荐算法的过程。数据预处理包括电影类型编码，自定义DataIter和DataBatch加载训练数据，然后定义并训练网络模型。

摘要由CSDN通过智能技术生成

上篇文章记录了使用矩阵分解的方法来做个性化推荐。本篇文章参考了 http://book.paddlepaddle.org/08.recommender_system/ 上面的融合推荐算法，由于本人目前的精力放在学习MXNET上，所以将其用mxnet进行改写了。由于时间关系，暂时省略了原算法中对title的向量提取，预计下一篇会补充对title的CNN向量提取。

1. 数据准备

MovieLens 百万数据集（ml-1m）。ml-1m 数据集包含了 6,000 位用户对 4,000 部电影的 1,000,000 条评价（评分范围 1~5 分，均为整数），由 GroupLens Research 实验室搜集整理。提示：原数据的分割符是'::', 可以用文本工具打开，替换成','或者'\t', 这样在使用pandas加载的时候能使用C库，否则加载数据非常慢。

1）movies.dat 每列分别是movieid, title, categories, 例如：1Toy Story (1995) Animation|Children's|Comedy。

需要注意的是电影类型也就是电影标签，一部电影可以有多个标签。比如上面的电影，类型是三种Animation，Children's，Comedy。

2）ratings.dat 每列分别是userid, movieid, score, time-stamp，表示用户对电影的评分。最后一列时间数据本例未使用

3）users.dat 是记录用户profile，分别是userid, gender, age 年龄段, job 职业类型，最后一列不知道是什么东东，本例未使用。

2. 自定义 DataIter和DataBatch，用于装载训练数据

跟上篇案例的类似，只是做了一点小变化，data.append(mx.nd.array(np.array(_data.tolist()),self.ctx))

import mxnet as mx
import numpy as np
class SimpleBatch(object):
    def __init__(self, data, label, pad=0):
        self.data = data
        self.label = label
        self.pad = pad

class SimpleBatch(object):
    def __init__(self, data, label, pad=0):
        self.data = data
        self.label = label
        self.pad = pad
class CustDataIter2:
    def __init__(self, data_names, data_gen, data_shape,
                 label_names, label_gen, label_shape,ctx,  batch_size,total_batches):
        self.data_names = data_names
        self.label_names = label_names
        self.data_gen = data_gen
        self.label_gen = label_gen
        self.