Hadoop
文章平均质量分 71
nourewang
这个作者很懒,什么都没留下…
展开
-
对hadoop第一个小程序WordCount的简单解释.
package com.test; import java.io.IOException; import java.util.Iterator; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; impo原创 2013-06-17 17:25:03 · 438 阅读 · 0 评论 -
Hadoop平台优化综述(一) <转>
1. 概述 随着企业要处理的数据量越来越大,MapReduce思想越来越受到重视。Hadoop是MapReduce的一个开源实现,由于其良好的扩展性和 容错性,已得到越来越广泛的应用。Hadoop作为一个基础数据处理平台,虽然其应用价值已得到大家认可,但仍存在很多问题,以下是主要几个: (1) Namenode/jobtracker单点故障。 Hadoop采用的是master/原创 2013-06-17 17:26:51 · 402 阅读 · 0 评论 -
Hadoop平台优化综述(二)<转>
4. 从系统实现角度进行优化 4.1 在可移植性和性能之间进行权衡 论文[16]主要针对HDFS进行了优化,它分析了HDFS性能低下的两个原因:调度延迟和可移植性假设。 (1) 调度延迟 Hadoop采用的是动态调度算法,即:当某个tasktracker上出现空slot时,它会通过HEARBEAT(默认时间间隔为3s,当集群 变大时,会适当调大)告诉jobtracker,之后原创 2013-06-17 17:26:48 · 948 阅读 · 0 评论 -
HDFS 文件系统操作
HDFS适合做: 存储大文件。上G、T甚至P。 一次写入,多次读取。并且每次作业都要读取大部分的数据。 搭建在普通商业机群上就可以了。虽然会经常宕机,但HDFS有良好的容错机制。 HDFS不适合做: 实时数据获取。如果有这个需求可以用HBase。 很多小文件。因为namenode要存储HDFS的metadata(比如目录的树状结构,每个文件的文件名、ACL、长度、owner原创 2013-06-17 17:26:44 · 467 阅读 · 0 评论 -
Hadoop单机环境配置 <转>
关于Hbase的介绍,可以参见http://wiki.apache.org/hadoop/Hbase与http://en.wikipedia.org/wiki/HBase。本文主要介绍在Ubuntu10.04环境下安装配置单机版原生的HBase。在网络上找到的文章要么语焉不详,要么ungeliable.于是记录一下自己的安装配置过程,做个STEP BY STEP的图文并茂的教程,谨防自己以后忘记原创 2013-06-17 17:26:17 · 373 阅读 · 0 评论 -
Hadoop中文件读写(Java) <转>
前言 在本文档中,你将了解到如何用Java接口读写Hadoop分布式系统中的文件,以及编码的转换等问题。其中有些细节,在你不知道的时候,是非常容易出错的。 这边读写文件分以下三种情况: 1. 在非Map Reduce过程中读写分布式文件系统中的文件 比如说,你想自己遍历一个文件,想截断一个文件,都属于这种方式。一般该过程发生在run函数中,程序员处理Map Reduce产生的中间文件原创 2013-06-17 17:26:14 · 606 阅读 · 0 评论 -
Hadoop TaskScheduler浅析 <转>
TaskScheduler, 顾名思义,就是MapReduce中的任务调度器。在MapReduce中,JobTracker接收JobClient提交的Job,将它们按 InputFormat的划分以及其他相关配置,生成若干个Map和Reduce任务。然后,当一个TaskTracker通过心跳告知JobTracker自己还有空闲的任务Slot时,JobTracker就会向其分派任务。具体应该分派一些原创 2013-06-17 17:25:36 · 618 阅读 · 0 评论 -
Hadoop OutputFormat浅析 <转>
在 Hadoop中,OutputFormat和InputFormat是相对应的两个东西。相比于InputFormat,OutputFormat似乎没 有那么多细节。InputFormat涉及到对输入数据的解析和划分,继而影响到Map任务的数目,以及Map任务的调度(见《Hadoop InputFormat浅析》)。而OutputFormat似乎像其字面意思那样,仅仅是完成对输出数据的格式化。 对原创 2013-06-17 17:25:33 · 663 阅读 · 0 评论 -
Hadoop InputFormat浅析 <转>
在执行一个Job的时候,Hadoop会将输入数据划分成N个Split,然后启动相应的N个Map程序来分别处理它们。数据如何划分?Split如何调度(如何决定处理Split的Map程序应该运行在哪台TaskTracker机器上)?划分后的数据又如何读取?这就是本文所要讨论的问题。先从一张经典的MapReduce工作流程图出发: http://hiphotos.baidu.com/_kouu/pic/原创 2013-06-17 17:25:29 · 537 阅读 · 0 评论 -
Hadoop 三台主机 集群搭建 详解 <转>
部署环境: OS:Redhat 5.5 Enterprise JDK:jdk1.6.0_32 Hadoop:Hadoop-0.20.2 VMWare:7.0 节点安排及网络拓扑: 节点类型 节点IP 节点hostname master节点 192.168.40.5 master slave节点 192.168.40.5 master(此时,原创 2013-06-17 17:25:17 · 473 阅读 · 0 评论 -
Hadoop 中的 MapReduce链接作业之预处理和后处理阶段的链接
package com.test; import java.io.IOException; import java.util.Iterator; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.Pat原创 2013-06-17 17:25:08 · 770 阅读 · 0 评论 -
Hadoop中常用的InputFormat,OutPutFormat类
Hadoop常用的INPUTFORMAT类,下表中列出来InputFormat的其他常用实现,并简要描述了每个实现传递给mapper的键/值对. TestInputFormat 在文本文件中的每一行均为一个记录.键(key)为一行的字符偏移,而值(value)为一行的内容 Key:LongWritable Value:Text KeyV原创 2013-06-17 17:25:05 · 598 阅读 · 0 评论 -
hadoop eclipse plugin jar 下载
hadoop eclipse plugin jar 下载: http://pan.baidu.com/share/link?shareid=463679&uk=2149617507原创 2013-06-17 17:28:11 · 718 阅读 · 0 评论 -
hadoop 源码SVN地址
hadoop 源码SVN地址 参考页面:http://hadoop.apache.org/version_control.html原创 2013-06-17 17:28:08 · 561 阅读 · 0 评论 -
windows和cygwin下hadoop安装配置
在Windows下利用cygwin仿unix环境安装配置Hadoop。 1、 所需软件 1.1、Cygwin 下载地址:http://www.cygwin.com/setup.exe 2、 安装 2.1、Cygwin安装说明见文章:http://www.zihou.me/2010/02/19/1506/ 2.2、JDK的安装省略了 2.3、hadoop-0.20.1安装 将ha原创 2013-06-17 17:27:55 · 753 阅读 · 0 评论 -
Hadoop中shuffle阶段流程分析 <转>
宏观上,Hadoop每个作业要经历两个阶段:Map phase和reduce phase。对于Map phase,又主要包含四个子阶段:从磁盘上读数据-》执行map函数-》combine结果-》将结果写到本地磁盘上;对于reduce phase,同样包含四个子阶段:从各个map task上读相应的数据(shuffle)-》sort-》执行reduce函数-》将结果写到HDFS中。 Hadoop处原创 2013-06-17 17:27:42 · 603 阅读 · 0 评论 -
hadoop JOB 核心功能描述 <转>
转自http://hadoop.apache.org/common/docs/r0.17.2/cn/mapred_tutorial.html 有了这个中文描述,hadoop job 的编写变得一如反掌,如果想看更具体的信息,可以去找找雅虎的资料,雅虎的更详细,但是是英文,看起来比较费劲。 核心功能描述 应用程序通常会通过提供map和reduce来实现 Mapper和Reducer接口,原创 2013-06-17 17:27:32 · 621 阅读 · 0 评论 -
NativeTask:利用本地执行引擎加速Hadoop <转>
NativeTask是Hadoop MapReduce的高效执行引擎实现。与MapReduce相比,NativeTask获得了不错的性能提升,主要包括更好的排序实现、关键路径避免序列化、避免复杂抽象、更好的利用压缩等。 简介 NativeTask是一个高性能MapReduce执行单元,支持C++接口。顾名思义,NativeTask是一个本地数据处理引擎,专注于数 据处理本身,在MapReduc原创 2013-06-17 17:26:53 · 1229 阅读 · 0 评论 -
hadoop 配置项的调优参数 <转>
引用原文地址:http://blog.sina.com.cn/s/blog_6a67b5c50100vop9.html dfs.block.size 决定HDFS文件block数量的多少(文件个数),它会间接的影响Job Tracker的调度和内存的占用(更影响内存的使用), mapred.map.tasks.speculative.execution=true mapred.原创 2013-06-17 17:27:44 · 511 阅读 · 0 评论