用Hadoop流实现mapreduce版推荐系统基于物品的协同过滤算法

最新推荐文章于 2023-11-02 14:45:51 发布

keepreder

最新推荐文章于 2023-11-02 14:45:51 发布

阅读量5.4k

点赞数 1

分类专栏：机器学习文章标签： mapreduce hadoop 协同过滤算法 keepreder 推荐系统

本文链接：https://blog.csdn.net/keepreder/article/details/47342809

版权

本文介绍了如何利用Hadoop流将原始数据转化为适合协同过滤算法的格式，并通过两个MapReduce阶段进行矩阵乘法和结果融合，实现推荐系统的计算过程。在每个阶段，详细说明了mapper和reducer的功能，并提供了执行命令。

摘要由CSDN通过智能技术生成

以个性化新闻推荐为例，整个过程分成两个mapreduce阶段，由于hadoop流不支持多个mapreduce过程的自动化，所以所有mapreduce过程命令必须人工一个一个的执行。

1、首先需要将原始数据处理成如下形式的两个文件

文件一：Item_user_score.txt

格式：物品—用户—分数

如下图中第一行，物品100655565被用户1634974浏览过，则将分数记为1

文件二：Item_Item_number.txt

格式：物品—物品—相似度

如下图中第二行，物品100654360与物品100650498同时被两个用户浏览过

2、矩阵乘法

其实文件一和文件二分别保存着一个矩阵，第二步就是要做矩阵乘法。

step1mapper.py

#!/usr/bin/env python
"""A more advanced Reducer, using Python iterators and generators."""

from itertools import groupby
from operator import itemgetter
import sys

def read_mapper_output(file, separator='\t'):
	for line in file:
		yield line.strip().split(separator,1)

def main(separator='\t'):
	# input comes from STDIN (standard input)