Hadoop
magicdreaming
这个作者很懒,什么都没留下…
展开
-
M/R推测性的执行(Speculative execution)
Hadoop系统有一个问题,它把任务分派到很多个节点,其中很有可能有一些慢的节点会限制剩下程序的执行速度。举个例子,如果有个节点内有一个比较慢的磁盘控制器,那它读取输入数据的速度可能只有所有其它节点的速度的10%。所以当99个map任务都已经完成了,系统仍在等待最后那个比较耗时的map任务完成。 通过强迫任务独立运行于其它的任务,使得单个任务之间不会知道它们的输入数据来自哪里。任务相信Had转载 2012-05-30 15:29:09 · 3446 阅读 · 0 评论 -
使用Hive读取Hbase中的数据
原地址:http://victorzhzh.iteye.com/blog/972406第一步,启动hadoop,命令:./start-all.sh第二步,启动hive,命令:./hive --auxpath /home/dream-victor/hive-0.6.0/lib/hive_hbase-handler.jar,/home/dream-victor/hi转载 2012-06-18 14:29:08 · 2824 阅读 · 0 评论 -
hadoop作业调优参数整理及原理
原地址:http://www.tbdata.org/archives/14701 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buffer中进行一些预排序来优转载 2012-06-18 15:44:54 · 1039 阅读 · 0 评论 -
Hadoop MapReduce容错性分析
转载自董的博客 作者:Dong 网址:http://dongxicheng.org/mapreduce/hadoop-mapreduce-failure-tolerance/本文讲述Hadoop-0.21.0 以及以上版本中MapReduce的容错机制。包括JobTracker,TaskTracker,Job,Task,Record等级别的容错机制。1. JobTracker转载 2012-06-15 17:09:56 · 2828 阅读 · 0 评论 -
Hadoop一些参数以及问题解悉
原地址:http://hi.chinaunix.net/?uid-9976001-action-viewspace-itemid-48380有时候DFSClient 操作hdfs总报连接超时的time out错,不一定都是因为网络原因造成,还有一种比较大的可能性是由于namenode的dfs.namenode.handler.count配置参数太低,默认为10。对hdfs和name转载 2012-06-13 10:06:34 · 1847 阅读 · 0 评论 -
Hadoop压缩算法说明与选择
原地址:http://yjhexy.iteye.com/blog/565334压缩是否支持多文件和分割:hadoop默认用压缩算法的本地实现===============================邪恶的分割线======================= 压缩是否有本地实现:hadoop的mapReduce算方法需要Splittable的压缩算法支转载 2012-06-13 10:10:37 · 2213 阅读 · 0 评论 -
Hadoop杂解
Hadoop其他开发方法:HadoopStreaming 允许用任何 shell 命令作为 map 或 reduce 函数。libhdfs 是一种基于 JNI 的 C 语言版 API(仅用于 HDFS)。Hadoop Pipes 是一种兼容 SWIG 的 C++ API (非 JNI),用于编写 MapReduce 作业。 Map读入文件不会切割:自己完成InputF原创 2012-06-08 15:26:00 · 458 阅读 · 0 评论 -
配置Hadoop的机架感知
原地址:http://datasearch.ruc.edu.cn/~boliangfeng/blog/?p=525我们都知道Hadoop的拓扑结构是机架感知的,这样在分配、请求数据副本时,可以根据机架感知的拓扑结构取得选取节点进行操作的权重(参考Hadoop拓扑结构中关于距离的定义)。事实上默认Hadoop是没有机架感知的,要想使用它,需要我们额外的配置,配置过程如下:首先修改na转载 2012-06-04 10:45:19 · 2339 阅读 · 0 评论 -
Hadoop容错性
使用Hadoop来运行你的作业的其中一个主要原因就是它的高容错性,就算在由高失败率的节点或网络组成的大集群内运行的作业,Hadoop都可以让作业成功完成。 Hadoop实现容错的主要方法就是重新执行任务,单个任务节点(TaskTracker)会不断的与系统的核心节点(JobTracker)进行通信,如果一个TaskTracker在一定时间内(默认是1分钟)无法与JobTracker进行通信,转载 2012-05-30 15:30:14 · 3492 阅读 · 0 评论 -
M/R的数据源为HBase时须关闭Speculative Execution
在HBase使用Speculative Execution会加重regionserver的load。 因为用Hadoop map/reduce操作HBase的时候,会尽量采用本地原则,即相应的task尽量使用本地的数据。 而如果另起一个task,则会导致数据不在本地,凭空浪费IO和网络资源。 强烈建议关闭 Speculative Execution 方法是在jobconf中设定原创 2012-05-30 15:40:04 · 1026 阅读 · 0 评论 -
ToolRunner与eclipse hadoop 插件的替代品,简化M/R程序的开发
目前开发的时候测试M/R程序有三种方式1. 直接打成jar包,然后放到服务器中去执行。此方法步骤繁琐,每次都要打包上传。2. 使用Hadoop的Ecilpse插件,但是对于N多的Hadoop版本总替换插件,是不是也是一种痛苦呢?3. 使用Hadoop的测试框架,这种情况我使用的比较少,感觉不太方便,每都相当于在本地启动各个服务(我电脑配置不好,压力啊!!汗一个原创 2012-09-11 12:44:44 · 2581 阅读 · 0 评论