用Hadoop流实现mapreduce版推荐系统基于物品的协同过滤算法

最新推荐文章于 2024-02-07 18:48:20 发布

VIP文章 keepreder

最新推荐文章于 2024-02-07 18:48:20 发布

阅读量5.3k

点赞数 1

分类专栏：机器学习文章标签： mapreduce hadoop 协同过滤算法 keepreder 推荐系统

本文链接：https://blog.csdn.net/keepreder/article/details/47342809

版权

以个性化新闻推荐为例，整个过程分成两个mapreduce阶段，由于hadoop流不支持多个mapreduce过程的自动化，所以所有mapreduce过程命令必须人工一个一个的执行。

1、首先需要将原始数据处理成如下形式的两个文件

文件一：Item_user_score.txt

格式：物品—用户—分数

如下图中第一行，物品100655565被用户1634974浏览过，则将分数记为1

文件二：Item_Item_number.txt

格式：物品—物品—相似度

如下图中第二行，物品100654360与物品100650498同时被两个用户浏览过

2、矩阵乘法

其实文件一和文件二分别保存着一个矩阵，第二步就是要做矩阵乘法。

step1mapper.py

#!/usr/bin/env python
"""A more advanced Reducer, using Python iterators and generators."""

from itertools import groupby
from operator import itemgetter
import sys

def read_mapper_output(file, separator='\t'):
	for line in file:
		yield line.strip().split(separator,1)

def main(separator='\t'):
	# input comes from STDIN (standard input)

最低0.47元/天解锁文章

keepreder

关注

1
点赞
踩
14

收藏

觉得还不错? 一键收藏
1
评论
用Hadoop流实现mapreduce版推荐系统基于物品的协同过滤算法

以个性化新闻推荐为例，整个过程分成两个mapreduce阶段，由于hadoop流不支持多个mapreduce过程的自动化，所以所有mapreduce过程命令必须人工一个一个的执行。1、首先需要将原始数据处理成如下形式的两个文件文件一：Item_user_score.txt格式：物品—用户—分数如下图中第一行，物品100655565被用户1634974浏览过，则将分数记为1
复制链接

扫一扫