hadoop调用python算法_Python海量数据处理之_Hadoop(三)程序调用-Go语言中文社区...

1. 说明

前两篇分别介绍了Hadoop的配置方法和基本原理,本篇将介绍如何让程序借助Hadoop调用服务器集群中的算力。Hadoop是Java语言实现的,它不仅支持Java,还支持C++,Python等程序的分布计算。下面以Python为例介绍如何使用Hadoop的MapReduce功能。

2. 工作过程

在原理部分介绍过,Hadoop分为两部分,一部分是存储,一部分是运算,而各个部分又可分为主控和局部实现。这里忽略细节,主要说明运算的主控部分是如何运作的。

从程序调用的角度看,程序员首先需要把待处理的文件复制到HDFS文件系统之中,然后调Hadoop提供的java程序执行分布计算,具体需要执行的python代码用参数的形式提供;最后在HDFS生成输出文件,程序员再将其拷回本地即可。

这里的分布计算主要指MapReduce,MapReduce框架将输入数据分割成数据块,传给Mapper,然后Map任务在各个服务器上以完全并行的方式处理,接着MapReduce框架对Map任务的输出进行排序,并将结果做为Reduce任务的输入,最后由Reduce任务输出最终的结果。请注意,在Map和Reduce中有个排序的过程,因为必须完成所有map后才能reduce,这也局限了MapReduce的工作场景。

MapReduce的核心数据是键值对,Mapper处理完数据输出的是键值对(如果不输出,则起到了过滤的作用),框架对键值对排序(后面在具体例子中介绍排序的原因),再输出给Reducer继续处理。Mapper的数量由输入文件的大小确定,Reducer的数量由程序员指定.

3. HDFS文

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值