笔记-Hadoop
文章平均质量分 95
owen1190
这个作者很懒,什么都没留下…
展开
-
Windows下配置Hadoop环境
下载软件在Windows环境下配置Hadoop,需要以下软件:jdk: http://www.oracle.com/technetwork/java/javase/downloads/index-jsp-138363.htmlAnt: http://ant.apache.org/bindownload.cgiCygwin: https://cygwin.com/install.htm原创 2016-08-17 10:43:32 · 2205 阅读 · 0 评论 -
Hadoop技术内幕之MapReduce编程模型(下)
非Java API 解析Hadoop Streaming的实现原理Hadoop Streaming 是 Hadoop 为方便非 Java 用户编写 MapReduce 程序而设计的工具包。 它允许用户将任何可执行文件或者脚本作为 Mapper/Reducer, 这大大提高了程序员的开发效率。Hadoop Streaming 要求用户编写的 Mapper/Reducer 从标准输入中读取数据, 并将结原创 2016-09-11 09:17:41 · 1107 阅读 · 0 评论 -
Hadoop技术内幕之MapReduce作业的生命周期
Hadoop MapReduce 作业的生命周期, 即作业从提交到运行结束经历的整个过程。用户编写了一个 MapReduce 程序, 并将其打包成 xxx.jar 文件, 然后使用以下命 令提交作业:$HADOOP_HOME/bin/hadoop jar xxx.jar \-D mapred.job.name="xxx" \-D mapred.map.tasks=3 \-D mapred.r原创 2016-09-05 10:10:09 · 546 阅读 · 0 评论 -
Hadoop技术内幕之Hadoop基本结构
Hadoop基本结构Hadoop 由两部分组成, 分别是分布式文件系统和分布式计算框架 MapReduce。 分布式文件系统主要用于大规模数据的分布式存储, 而 MapReduce 则构建在分布式文件系 统之上, 对存储在分布式文件系统中的数据进行分布式计算。HDFS结构HDFS 是一个具有高度容错性的分布式文件系统, 适合部署在廉价的机器上。 HDFS 能 提供高吞吐量的数据访问, 非常适合原创 2016-08-26 21:02:13 · 972 阅读 · 0 评论 -
Hadoop技术内幕之RPC框架解析(上)
网络通信模块是分布式系统中最底层的模块。它直接支撑了上层分布式环境下复杂的进程间通信逻辑,是所有分布式系统的基础。远程过程调用(RPC)是一种常用的分布式网络通信协议。它允许运行于一台计算机的程序调用另一台计算机的子程序,同时将网络通信细节隐藏起来,使得用户无须额外地为这个交互作用编程。Hadoop RPC框架概述对于Hadoop RPC,具有以下几个特点:透明性:所有RPC框架的最根本特征。高原创 2016-09-18 10:21:01 · 1622 阅读 · 0 评论 -
Hadoop技术内幕之MapReduce编程模型(上)
MapReduce 应用广泛的原因之一在于它的易用性。 它提供了一个因高度抽象化而变得 异常简单的编程模型。MapReduce 编程模型概述适用的应用场景往往具有一个共同的特点 : 任务可被分解成相互独立的子问题。MapReduce 编程模型给出了其分布式编程方法, 共分 5 个步骤:迭代( iteration)。 遍历输入数据, 并将之解析成 key/value 对。将输入 key/valu原创 2016-09-08 15:28:52 · 1780 阅读 · 0 评论 -
Hadoop技术内幕之作业提交与初始化过程分析
MapReduce作业的提交与初始化过程,即从用户输入提交作业命令到作业初始化的整个过程。该过程涉及JobClient、JobTracker和TaskScheduler三个组件,它们功能分别是准备运行环境、接收作业以及初始化作业。作业提交与初始化概述作业提交过程主要为后续作业执行准备环境,主要涉及创建目录、上传文件等操作;而一旦用户提交作业后,JobTracker端便会对作业进行初始化。作业初始化的原创 2016-09-26 10:36:40 · 736 阅读 · 0 评论