【Python机器学习】Hadoop流

最新推荐文章于 2024-10-27 16:43:31 发布

zhangbin_237

最新推荐文章于 2024-10-27 16:43:31 发布

阅读量275

点赞数 3

分类专栏： Python机器学习文章标签： hadoop 大数据分布式 python

本文链接：https://blog.csdn.net/weixin_39407597/article/details/141326453

版权

Python机器学习专栏收录该内容

226 篇文章 3 订阅

订阅专栏

Hadoop是一个开源的Java项目，为运行MapReduce作业提供了大量所需的功能。除了分布时计算之外，Hadoop自带分布式文件系统。

Hadoop可以运行Java之外的其他语言编写的分布式程序。Hadoop流很像Linux系统重的管道（管道使用符号 | ，可以将一个命令的输入作为另一个命令的输出）。如果用mapper.py调用mapper，用reducer.py调用reducer，那么Hadoop流就可以想Linux命令一样执行，例如

cat inputFile.txt | python3 mapper.py | sort | python3 reducer.py > outputFile.txt

这样，类似的Hadoop流就可以在多台机器上分布式执行，用户可以通过Linux命令来测试python语言编写的MapReduce脚本。

分布式计算均值和方差的mapper

下面是一个在海量数据上构建的分布式计算均值和方差的MapReduce作业：

import sys
from numpy import mat,mean,power

def read_input(file):
    for line in file:
        yield line.strip()

input = read_input(sys.stdin)
input=[float(line) for line in input]
numInputs=len(input)
input=mat(input)
sqInput=power(input,2)
print('%d\t%f\%f' % (numInputs,mean(input),mean(sqInput)))
print >> sys.stderr,'report: still alive'

Linux下的调用命令：

cat inputFile.txt | python3 map.py

Windows系统下调用命令，在DOS窗口：

python3 map.py < inputFile.txt

分布式计算均值和方差的reducer

mapper接受原始的输入并产生中间值传递给reducer。很多mapper是并行执行的，所以需要将这些mapper的输出合并成一个值。接下来是reducer的代码：将中间的key/value对进行组合：

import sys
from numpy import mat,mean,power

def read_input(file):
    for line in file:
        yield line.strip()

input=read_input(sys.stdin)
mapperOut=[line.split('\t') for line in input]
cumVal=0.0
cumSumSq=0.0
cumN=0.0
for instance in mapperOut:
    nj=float(instance[0])
    cumN=cumN+nj
    cumVal=cumVal+float(instance[1])
    cumSumSq=cumSumSq+float(instance[2])
mean=cumVal/cumN
varSum=(cumSumSq-2*mean*cumVal+cumN*mean*mean)/cumN
print('%d\t%f\t%f' % (cumN,mean,varSum))
print >> sys.stderr,'report: still alive'

Linux下的调用命令：

%cat inputFile.txt | python3 map.py | python3 reduce.py

Windows系统下调用命令，在DOS窗口：

%python3 map.py < inputFile.txt | python3 reduce.py

zhangbin_237

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录