hadoop
文章平均质量分 71
hacker_zhb
这个作者很懒,什么都没留下…
展开
-
hadoop性能调优笔记
Hadoop调优mapred.tasktracker.map.tasks.maximum 官方解释:The maximum number of map tasks that will be run simultaneously by a task tracker. 我的理解:一个tasktracker最多可以同时运行的map任务数量 默认值:2 优化值:map...原创 2012-05-02 13:20:11 · 68 阅读 · 0 评论 -
hadoop hbase log backup
hadoop hbase logs目录下日志越来越多,写个简单的脚本备份删除一下#!/bin/sh#backup hadoop&hbase logs which are 30 days ago, and delete themcd /work/hadoop-0.20.203.0/logstoday=`date +%Y-%m-%d`find . -mti...原创 2012-06-28 16:43:58 · 78 阅读 · 0 评论 -
24 Interview Questions & Answers for Hadoop MapReduce developers
A good understanding of Hadoop Architecture is required to understand and leverage the power of Hadoop. Here are few important practical questions which can be asked to a Senior Experienced Hadoop Dev...原创 2012-07-12 10:12:39 · 112 阅读 · 0 评论 -
hadoop-0.20.203启用LZO压缩
1.准备工作,安装ant,(编译第三步lzo编码解码时使用,现使用hadoop-lzo-package,可忽略) #创建临时目录,如当前工作路径为/workcd /workmkdir lzo#ant.apache.org 下载antcd lzowget http://archive.apache.org/dist/ant/binaries/apache-ant-1....原创 2012-07-12 16:45:05 · 300 阅读 · 0 评论 -
hadoop面试可能遇到的问题
Q1. Name the most common InputFormats defined in Hadoop? Which one is default ? Following 2 are most common InputFormats defined in Hadoop - TextInputFormat- KeyValueInputFormat- SequenceFileInputFo...原创 2012-07-13 13:50:24 · 111 阅读 · 0 评论 -
Hadoop InputFormat浅析
在执行一个Job的时候,Hadoop会将输入数据划分成N个Split,然后启动相应的N个Map程序来分别处理它们。数据如何划分?Split如何调度(如何决定处理Split的Map程序应该运行在哪台TaskTracker机器上)?划分后的数据又如何读取?这就是本文所要讨论的问题。先从一张经典的MapReduce工作流程图出发:1、运行mapred程序;2、本次运行将生成一个Job,于是JobClie...原创 2012-07-13 13:57:11 · 83 阅读 · 0 评论 -
Hadoop OutputFormat浅析
转自:http://hi.baidu.com/_kouu/blog/item/dd2f08fd25da09e0fc037f15.html在Hadoop中,OutputFormat和InputFormat是相对应的两个东西。相比于InputFormat,OutputFormat似乎没有那么多细节。InputFormat涉及到对输入数据的解析和划分,继而影响到Map任务的数目,以及Map...原创 2012-07-13 14:00:08 · 148 阅读 · 0 评论 -
Hadoop TaskScheduler浅析
转自:http://hi.baidu.com/_kouu/blog/item/f51e57dc73d42d2a5982dd8a.html TaskScheduler,顾名思义,就是MapReduce中的任务调度器。在MapReduce中,JobTracker接收JobClient提交的Job,将它们按InputFormat的划分以及其他相关配置,生成若干个Map和Reduce任务。然后,当...原创 2012-07-13 14:01:41 · 120 阅读 · 0 评论 -
hadoop-0.20.203启用LZO压缩 安装成功
#准备各安装包,并scp到各节点pwd/work/lzo#scp ./* node-host:/work/lzols -l总计 3240-rw-r--r-- 1 root root 2176215 07-13 16:12 hadoop-gpl-packaging-0.2.8-1.x86_64.rpmdrwxr-xr-x 13 root root 4096 07-...2012-07-13 18:10:15 · 114 阅读 · 0 评论 -
Hadoop Dont's: What not to do to harvest Hadoop's full potential
We've all heard this story. All was fine until one day your boss heard somewhere that Hadoop and No-SQL are the new black and mandated that the whole company switch over whatever it was doing to th...原创 2012-07-15 15:45:41 · 115 阅读 · 0 评论 -
HDFS架构简介
转自:http://asyty-cp.blog.163.com/blog/static/117542439201191322858356/一、 HDFS框架简述 图1 HDFS框架图HDFS设计目标1. 容错性2. 流式数据访问3. 大规模数据集4. 简单的一致性模型5...原创 2012-07-17 15:02:45 · 236 阅读 · 0 评论 -
Hadoop生态图谱
http://blog.nosqlfan.com/html/3675.html当下Hadoop已经成长为一个庞大的体系,貌似只要和海量数据相关的,没有哪个领域缺少Hadoop的身影,下面是一个Hadoop生态系统的图谱,详细的列举了在Hadoop这个生态系统中出现的各种数据工具。这一切,都起源自Web数据爆炸时代的来临数据抓取系统 - Nutch海量数据怎么存,当然是...原创 2012-04-13 14:09:35 · 104 阅读 · 0 评论 -
hadoop mapreduce查看System.out的数据
Actually stdout only shows the System.out.println() of the non map reduce classes. The System.out.println() for map and reduce phases can be seen in the logs. Easy way to access the logs is http:/...原创 2012-04-16 18:18:22 · 166 阅读 · 0 评论 -
hadoop mapreduce 输出不带行号(用于预处理)
You can suppress the key or the value (or both, making this output format equivalentto NullOutputFormat, which emits nothing) from the output using a NullWritable type.This also causes no separato...原创 2012-04-16 18:19:55 · 280 阅读 · 0 评论 -
hadoop 官方文档
hadoop: http://wiki.apache.org/hadoop/PerformanceTuning (调优)wiki:http://wiki.apache.org/hadoop/http://wiki.apache.org/hadoop/Hbase?action=show&redirect=HBasebook:http://hbase.apache.or...原创 2012-04-17 10:40:06 · 294 阅读 · 0 评论 -
Hadoop Job失败解决
现象:map 某个task始终实行失败,直到超时,attemp task重试四次,最后task失败查看jobtracker发现每次都是固定的task,找到该task所在节点,查看log,搜索该taskid如: cat hadoop-hadoop-tasktracker-DB1221.log.2012-06-26 | grep attempt_201206081842_0456_m_...原创 2012-06-27 17:07:31 · 725 阅读 · 0 评论 -
Hadoop的那些事儿
在说Hadoop之前,作为一个铁杆粉丝先粉一下Google。Google的伟大之处不仅在于它建立了一个强悍的搜索引擎,它还创造了几项革命性的技术:GFS,MapReduce,BigTable,即所谓的Google三驾马车。Google虽然没有公布这几项技术的实现代码,但它发表了详细的设计论文,这给业界带来了新鲜气息,很快就出现了类似于Google三驾马车的开源实现,Hadoop就是其中的一个...原创 2012-06-25 14:37:22 · 78 阅读 · 0 评论 -
分析和优化云集群性能 使用可配置参数监视和调优 Hadoop 集群的性能
http://www.ibm.com/developerworks/cn/cloud/library/cl-cloudclusterperformance/index.html 简介Hadoop 是一个灵活的开放源码 Java 框架,用于在一般硬件网络上执行大规模数据处理。它的思想来源于最初由 Google Labs 开发的 MapReduce 和 Global File ...原创 2012-05-03 13:03:17 · 175 阅读 · 0 评论 -
hadoop 默认参数配置和调优设置
http://hadoop.apache.org/common/docs/current/hdfs-default.htmlhttp://hadoop.apache.org/common/docs/current/core-default.htmlhttp://hadoop.apache.org/common/docs/current/mapred-default.html...原创 2012-05-03 13:03:29 · 179 阅读 · 0 评论 -
mapred.tasktracker.map.tasks.maximum 和 cpu核数的关系
The number of tasks that can be run simultaneously on a tasktracker is related to thenumber of processors available on the machine. Because MapReduce jobs are normallyI/O-bound, it makes sense ...原创 2012-05-03 13:03:39 · 519 阅读 · 0 评论 -
hadoop hbase svn site
hadoop:http://hadoop.apache.org/common/version_control.html http://svn.apache.org/repos/asf/hadoop/common/trunk/OverviewThe Hadoop Common source code resides in the Apache Subversio...原创 2012-05-11 09:54:54 · 81 阅读 · 0 评论 -
Hadoop使用常见问题以及解决方法
from : http://www.hadoopor.com/thread-71-1-1.htmlHadoop使用常见问题以及解决方法1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-outAnswer:程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使...原创 2012-05-17 16:41:47 · 711 阅读 · 0 评论 -
hadoop 优化的一些点
版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明http://luobeng.blogbus.com/logs/105014767.html5月19日hadoop/mapred优化方法.V004欢迎拍砖. ***某些方法, 会导致程序可维护性会降低*** 从三个方面着手优化 :1. hadoop配置2. 设计mapred...原创 2012-05-17 16:43:38 · 71 阅读 · 0 评论 -
关于 hadoop slot的一篇转载
版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明http://luobeng.blogbus.com/logs/105015789.html原文 :http://hi.baidu.com/%F1%FB%D7%F3%D1%D4/blog/item/7aa31bc9f33e7e057e3e6f52.html hadoop一个节点默认起两个map ...原创 2012-05-17 17:12:49 · 294 阅读 · 0 评论 -
Kerberos authentication
转自:http://www.sunchangming.com/blog/?p=4137 JAAS是Java 认证和授权服务(Java Authentication and Authorization Service)的缩写,是PAM框架的Java实现。javax.sercurity.auth.Subject是一个不可继承的实体类,它表示单个实体的一组相关信息,与请求的来源相关。...原创 2012-05-19 21:46:46 · 662 阅读 · 0 评论 -
hadoop作业调优参数整理及原理
转自:http://www.tbdata.org/archives/1470 hadoop作业调优参数整理及原理1 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存b...原创 2012-05-24 13:58:26 · 100 阅读 · 1 评论 -
hadoop tuning blog
7 Tips for Improving MapReduce Performancehttp://www.cloudera.com/blog/2009/12/7-tips-for-improving-mapreduce-performance/ 分析和优化云集群性能使用可配置参数监视和调优 Hadoop 集群的性能http://www.ibm.com/developer...原创 2012-05-24 14:16:07 · 105 阅读 · 0 评论 -
hdfs小文件问题
http://www.cloudera.com/blog/2009/02/the-small-files-problem/http://dongxicheng.org/mapreduce/hdfs-small-files-solution/http://www.cnblogs.com/williamsli/articles/2259697.html原创 2012-06-04 10:23:50 · 72 阅读 · 0 评论 -
hadoop 相关博客推荐
http://www.cnblogs.com/xuqiang/category/295606.htmlhttp://dongxicheng.org/ http://www.cnblogs.com/xia520pi/category/346943.html推荐文章:http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533...原创 2012-06-04 10:26:47 · 130 阅读 · 0 评论 -
Hadoop集群上使用Lzo压缩
自从Hadoop集群搭建以来,我们一直使用的是Gzip进行压缩当时,我对gzip压缩过的文件和原始的log文件分别跑MapReduce测试,最终执行速度基本差不多而且Hadoop原生支持Gzip解压,所以,当时就直接采用了Gzip压缩的方式关于Lzo压缩,twitter有一篇文章,介绍的比较详细,见这里:Lzo压缩相比Gzip压缩,有如下特点:压缩解压的速度很快...原创 2012-06-21 14:14:49 · 137 阅读 · 0 评论 -
Hadoop学习总结:Map-Reduce的过程解析
一、客户端Map-Reduce的过程首先是由客户端提交一个任务开始的。提交任务主要是通过JobClient.runJob(JobConf)静态函数实现的:public static RunningJob runJob(JobConf job) throws IOException { //首先生成一个JobClient对象 JobClient jc = ...原创 2012-06-25 10:47:18 · 67 阅读 · 0 评论 -
hadoop学习总结
HDFS简介http://www.cnblogs.com/forfuture1978/archive/2010/03/14/1685351.html HDFS读写过程解析http://www.cnblogs.com/forfuture1978/archive/2010/11/10/1874222.html Map-Reduce入门http://ww...原创 2012-04-17 14:13:10 · 71 阅读 · 0 评论