mapreduce python实例_MapReduce程序实例（python）

最新推荐文章于 2021-01-27 07:34:33 发布

weixin_39620535

最新推荐文章于 2021-01-27 07:34:33 发布

阅读量150

点赞数

文章标签： mapreduce python实例

本文链接：https://blog.csdn.net/weixin_39620535/article/details/111426495

版权

问题背景

现在有两份数据，file1是校园新闻版块，每一条新闻点击记录；file2是校园新闻版块使用活跃度高的学生记录。用mr统计出某一天的点击记录里，使用ios/android手机的活跃学生的总的点击次数

原始数据格式如下：

file 1，校园新闻点击记录，记录了每一次学生点击校园新闻的行为

格式：学号\t姓名\t手机端\t新闻id\新闻关键词

20170001 xiaoming android 331 学费

20170002 xiaohong ios 332 食堂

20170003 xiaohua android 333 考研

20170001 xiaoming android 222 评优

20170001 xiaoming android 225 学费

20170003 xiaohua android 111 期末考试

20170002 xiaohong ios 117 空调安装

...

file2，校园新闻活跃学生记录，记录了对校园新闻版块点击活跃度高的学生信息

格式：格式：学号\t姓名\t年龄\t手机端

20170001 xiaoming 20 android

20170002 xiaohong 19 ios

20170001 xiaoqiang 20 android

...

问题分析

1、key的选择：选取学号+手机端共同作为key。学号是用于对是否活跃用户的判断，手机端是用于统计时的分类。注意，这里如果仅仅将手机端作为key有一个坏处，就是key值将只有两种，这样不利于将海量的数据分为多个小部分处理，因此选择学号+手机端共同作为key。

2、关键点：在对每一行数据进行处理时，利用两份数据，做好是否活跃用户的标记；在对同一个key进行处理时，根据前一步处理的结果，判断是否进行累加。

代码实现

1、mapper.py

解析原始数据，将其处理为一系列的键值对(key-value pair)，这里选取"学号_手机端"作为key。

import sys

def main():

"""

mapper

"""

for line in sys.stdin:

data = line.strip().split("\t")

if len(data) == 5:

student_id = data[0]

os_name = data[2]

key = student_id + '_' + os_name

print"\t".join([key,"file1"])

elif len(data) == 4:

student_id = data[0]

os_name = data[-1]

key = student_id + '_' + os_name

print"\t".join([key,"file2"])

if __name__ == "__main__":

main()

2、reducer.py

由MapReduce框架的机制，同一个key的所有数据都会被传给同一个reducer，同一个reducer可以接受多个键值对。

reducer将相同键的一组值，进行处理产生一组规模更小的值(如累加得到一个值)。

import sys

import json

dic_result = {'android':0, 'ios':0}

pre_key = ""

def post_deal(pre_key):

"""

相同key的数据的处理

"""

global dic

os_name = pre_key.strip.split("\t")[1]

if 'click' in dic and dic['click'] == 'yes' and 'active' in dict and dic['active'] == 'yes':

dic_result[os_name] += 1

def deal(data):

"""

对每一行数据的处理

"""

if data[1] == "file1":

dic['click'] = 'yes'

if data[1] == "file2":

dic['active'] = 'yes'

def pre_deal():

"""

预处理，如将用于存储同一个key的一组value中间结果的字典置零

"""

global dic

dic = dict()

def main():

"""

reducer

"""

for line in sys.stdin:

data = line.strip().split("\t")

key = data[0]

#当同一个key的数据全部deal完，到下一个key时

if key != pre_key:

if pre_key != "":

#处理同一个key所有数据

post_deal(pre_key)

#处理完成后，预处理准备下一轮处理

pre_deal()

#将pre_key更新为下一个要处理的key

pre_key = key

#将同一个key的一组值按需要进行处理/整合

deal(data)

#处理最后一个key的数据

if pre_key != "":

post_deal(pre_key)

#打印结果

print json.dumps(dic_result)

if __name__ == "__main__":

main()

3、线下测试 cat file|map|sort|reduce

STEP1：测试map

cat file1_test file2_test | python mapper.py > map_out

测试中，map_out中的数据将如下所示：

20170001_andorid file1

20170002_ios file1

20170003_andorid file1

20170001_andorid file1

...

20170001_andorid file2

20170002_ios file2

...

STEP2：对map_out按照key(key默认放在第一列)排序，使相同key的数据在一起，然后测试reducer

cat map_out |sort -k1,1|python reducer.py > red_out

reducer的输出是json，形如：{'ios':1123, 'android':3333}

4、hadoop线上运行 run.sh

#!/bin/bash

WORKROOT="..."

HADOOP="hadoop客户端路径"

INPUT1="file1文件路径"

INPUT2="file2文件路径"

OUTPUT_DIR="输出的HDFS路径"

PYTHON="python路径"

#设置一系列参数，并启动MR任务

$HADOOP streaming \

-D mapred.map.tasks=200 \

-D mapred.job.map.capacity=400 \

-D mapred.red.tasks=100 \

-D mapred.job.red.capacity=400 \

-D mapred.job.priority=HIGH \

-D stream.num.map.output.key.fields=1 \

...

-partitionor ... \

-cacheArchive ... \

-input $INPUT1 \

-input $INPUT2 \

-output $OUTPUT_DIR \

-mapper "$PYTHON mapper.py" \

-reducer "$PYTHON reducer.py" \

-file $WORKROOT/mapper.py \

-flle $WORTROOT/reducer.py

#成功运行完成，创建一个空文件，加上成功的标签

if [ ${?} -eq 0 ]; then

$HADOOP fs -touchz $OUTPUT_DIR succuss.tag

部分参数的解释：

mapred.map.tasks：map数目

mapred.reduce.tasks：reduce数目

mapred.job.map.capacity：map并发数目

mapred.job.reduce.capacity：educe并发数目

stream.num.map.output.key.fields：设置map程序分隔符的位置，该位置之前的部分作为key，之后的部分作为value

weixin_39620535

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
mapreduce python实例_MapReduce程序实例（python）

问题背景现在有两份数据，file1是校园新闻版块，每一条新闻点击记录；file2是校园新闻版块使用活跃度高的学生记录。用mr统计出某一天的点击记录里，使用ios/android手机的活跃学生的总的点击次数原始数据格式如下：file 1，校园新闻点击记录，记录了每一次学生点击校园新闻的行为格式：学号\t姓名\t手机端\t新闻id\新闻关键词20170001 xiaoming android 331 ...
复制链接

扫一扫

mapreduce python实例_MapReduce程序实例（python）

“相关推荐”对你有帮助么？