Hadoop实战实例

最新推荐文章于 2023-06-01 08:13:09 发布

我为AI领域做了奉献

最新推荐文章于 2023-06-01 08:13:09 发布

阅读量8.7k

点赞数 2

本文链接：https://blog.csdn.net/skiwnc/article/details/84000504

版权

本文详细介绍了Hadoop的MapReduce编程模型，包括程序员如何定义Mapper和Reducer，以及Hadoop的工作流程。通过一个简单的分布式Grep实例，阐述了如何编写和运行Hadoop程序。此外，文章还讨论了Hadoop在不同运行模式下的效率问题，指出其性能取决于多种因素。

摘要由CSDN通过智能技术生成

分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow

也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！

Hadoop实战实例

Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样， MapReduce的run-time系统会解决输入数据的分布细节，跨越机器集群的程序执行调度，处理机器的失效，并且管理机器之间的通讯请求。这样的模式允许程序员可以不需要有什么并发处理或者分布式系统的经验，就可以处理超大的分布式系统得资源。

一、概论

    作为Hadoop程序员，他要做的事情就是：
    1、定义Mapper，处理输入的Key-Value对，输出中间结果。
    2、定义Reducer，可选，对中间结果进行规约，输出最终结果。
    3、定义InputFormat 和OutputFormat，可选，InputFormat将每行输入文件的内容转换为Java类供Mapper函数使用，不定义时默认为String。
    4、定义main函数，在里面定义一个Job并运行它。

    然后的事情就交给系统了。
    1.基本概念：Hadoop的HDFS实现了google的GFS文件系统，NameNode作为文件系统的负责调度运行在master，DataNode运行在每个机器上。同时Hadoop实现了Google的MapReduce，JobTracker作为MapReduce的总调度运行在master，TaskTracker则运行在每个机器上执行Task。

    2.main()函数，创建JobConf，定义Mapper，Reducer，Input/OutputFormat 和输入输出文件目录，最后把Job提交給JobTracker，等待Job结束。

    3.JobTracker，创建一个InputFormat的实例，调用它的getSplits()方法，把输入目录的文件拆分成FileSplist作为Mapper task 的输入，生成Mapper task加入Queue。

    4.Task