![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 72
rcvgt
1111111111111111111111111
展开
-
Hadoop平台搭建步骤
一、虚拟机及系统安装1. 下载vmware,并成功安装;2. 在vmware中安装Linux系统; 二、在虚拟机中配置JAVA环境1.安装java虚拟机(jdk-6u31-linux-i586.bin);2.配置环境变量(1) vi /etc/profile (编辑文件)(2) 添加 JAVA_HOME CLASSPATH PATH<!--[endi...2013-04-28 11:00:56 · 291 阅读 · 0 评论 -
深入了解Hadoop
一、前提和设计目标 1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。 2、跑在HDFS上的应用与一般的应用不同,它们主要是以流式读为主,做批量处理;比之关注数据访问的低延迟问题,更关键的在于数据访问的高吞吐量。 3、HDFS以支持大数据集合为目标,一个存储在上面的典型文件大小一般...原创 2013-09-13 17:17:35 · 64 阅读 · 0 评论 -
Hadoop之JobTrack分析(转)
1.client端指定Job的各种参数配置之后调用job.waitForCompletion(true) 方法提交Job给JobTracker,等待Job 完成。[java] view plaincopyprint? public void submit() throws IOException, InterruptedException, ...原创 2014-02-10 18:02:49 · 669 阅读 · 0 评论 -
Hadoop之TaskTraker分析(转)
TaskTracker的工作职责之前已经和大家提过,主要负责维护,申请和监控Task,通过heartbeat和JobTracker进行通信。 TaskTracker的init过程: 1.读取配置文件,解析参数 2.将TaskTraker上原有的用户local files删除并新建新的dir和file 3. Map<TaskAttemptID...原创 2014-01-26 11:58:44 · 210 阅读 · 0 评论 -
Hadoop : MapReduce中的Shuffle和Sort分析
MapReduce 是现今一个非常流行的分布式计算框架,它被设计用于并行计算海量数据。第一个提出该技术框架的是Google 公司,而Google 的灵感则来自于函数式编程语言,如LISP,Scheme,ML 等。 MapReduce 框架的核心步骤主要分两部分:Map 和Reduce。当你向MapReduce 框架提交一个计算作业时,它会首先把计算作业拆分成若干个Map 任务...原创 2014-01-26 11:51:12 · 77 阅读 · 0 评论 -
Hadoop的shuffle
我们知道每个reduce task输入的key都是按照key排序的。 但是每个map的输出只是简单的key-value而非key-valuelist,所以洗牌的工作就是将map输出转化为reducer的输入的过程。 在map结束之后shuffle要做的事情: map的输出不是简单的写入本地文件,而是更多的利用内存缓存和预排序工作,以提高效率。io.so...原创 2014-01-26 11:49:37 · 80 阅读 · 0 评论 -
Hadoop 优化性能
Hadoop 可配置参数Hadoop 提供许多配置选项,用户和管理员可以通过它们进行集群设置和调优。core/hdfs/mapred-default.xml 中有许多变量,可以在core/hdfs/mapred-site.xml 中覆盖它们。一些变量指定系统上的文件路径,而其他变量对 Hadoop 的内部进行深入的调整。性能调优主要有四个方面:CPU、内存、磁盘 I/O 和网络。本文介...原创 2014-01-26 11:40:52 · 132 阅读 · 0 评论 -
(转)浅析 Hadoop 中的数据倾斜
在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同,应用的类型不同和切分的数据大小不一致总会导致有部分任务极大的拖慢了整个任务的完成时间,硬件不同就不说了,应用的类型不同其中就比如page rank 或者data mining 里面一些计算,它的每条记录消耗的成本不太一样,这里只讨论关于关系型运算的(一般能用SQL表述的) 数据切...原创 2014-01-26 11:26:56 · 87 阅读 · 0 评论 -
hadoop fsck命令详解
fsck 是一个文件检查工具这条命令将会递归检查路劲下所有 文件的健康状况。 hadoop fsck <path> [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]] <path> 检查这个目录中的文件是否完整 ...原创 2014-01-22 10:18:00 · 252 阅读 · 0 评论 -
Hadoop集群balance工具详解
Hadoop集群balance工具详解 在线上的Hadoop集群运维过程中,hadoop 的balance工具通常用于平衡hadoop集群中各datanode中的文件块分布,以避免出现部分datanode磁盘占用率高的问题(这问题也很有可能导致该节点CPU使用率较其他服务器高)。1) hadoop balance工具的用法:To start: bin/start-bala...原创 2014-01-15 10:16:25 · 176 阅读 · 0 评论 -
HADOOP源码学习思路与方法
读源码方面的顺序是先读懂以下五个方面的源码,其已囊括了Hadoop的核心要务,1、读源码的过程与读Docs过程并行,此阶段以Docs为中心,读源码目的是要辅住理解Docs;2、读懂Docs后读源码时要融汇贯通,系统的读,整体把握,可以应用比如类图等方法辅助,此阶段还要返回读Docs以辅助理解源码。3、在以上基础上,开始进入应用Hadoop阶段。org.apache.hadoop....原创 2014-01-03 23:49:48 · 86 阅读 · 0 评论 -
Hadoop源代码学习(完整版)
源地址:http://blog.csdn.net/xiaogugood/article/details/8209839Hadoop源代码学习(完整版) Hadoop源代码分析(一)HadoopMapreduceGoogleHBaseFacebook 经济不行啦,只好潜心研究技术。 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章...原创 2014-01-03 23:49:02 · 138 阅读 · 0 评论 -
hive中的LEFT SEMI JOIN
LEFT SEMI JOIN 是 IN/EXISTS 子查询的一种更高效的实现。hive 中没有in/exist 这样的子句,所以需要将这种类型的子句转成left semi join. left semi join 是只传递表的join key给map 阶段 , 如果key 足够小还是执行map join, 如果不是则还是common join可以用 LEFT SEMI JOIN 重写...原创 2013-12-27 17:11:08 · 169 阅读 · 0 评论 -
hadoop升级
1.运行dfsadmin -upgradeProgress status 检查是否存在备份 如果是第一次升级 就不存在备份(在升级Hadoop前,如果已经存在备份,需要先结束 finalize 它。)2.备份dfs.namenode.dir下文件,同时要备份下hdfs的文件目录的元数据信息:bin/hadoop fsck / -files -blocks -locations >...原创 2014-05-07 16:51:47 · 146 阅读 · 0 评论 -
hadoop节点管理
(hadoop版本1.0.3)hadoop增加节点操作前提操作系统环境已经成功安装完成,步骤如下:第一: master主机里的$HADOOP_HOME/conf下,修改slaves文件,增加新增节点主机名第二:配置免登录设置第三:新增节点启动datanode和tasktracker两个进程 $HADOOP_HOME/bin/hadoop-daemon....原创 2013-04-28 11:41:38 · 167 阅读 · 0 评论 -
Hadoop SecondNamenode详解
SecondNamenode名字看起来很象是对第二个Namenode,要么与Namenode一样同时对外提供服务,要么相当于Namenode的HA。真正的了解了SecondNamenode以后,才发现事实并不是这样的。下面这段是Hadoop对SecondNamenode的准确定义:* The Secondary Namenode is a helper to the primary Name...原创 2013-09-16 16:45:24 · 122 阅读 · 0 评论