关闭

[置顶] NameNode HA 采用方案

原文:http://yanbohappy.sinaapp.com/?p=50 Hadoop的设计初衷是服务于off-line的数据存储和处理应用。随着这个产品的不断成熟和发展,对于支持on-line应用的需求越来越强烈。例如HBase已经被Facebook和淘宝用到了在线存储应用中。所以Hadoop的on-line化也是一个趋势。目前制约Hadoop作为on-line存储和处理的...
阅读(8761) 评论(1)

[置顶] NameNode federation

原链:http://blog.csdn.net/azhao_dn/article/details/7480201 从0.23.0开始,Hadoop开始支持分布式NameNode,通过NameNode federation的形式实现。这样实现了NameNode的横向扩展,使得Hadoop集群的规模可以达到上万台。 1,分布式NameNode基本原理和设计 HDFS存储包...
阅读(5262) 评论(0)

[置顶] hbase应用优化相关

转载自:http://www.cnblogs.com/panfeng412/archive/2012/03/08/hbase-performance-tuning-section1.html 本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客。 下面是本文总结的第一部分内容:表的设...
阅读(3755) 评论(0)

[置顶] HBase存储架构

原文:http://www.blogjava.net/hengheng123456789/archive/2010/12/31/342074.html 英文原文:http://www.larsgeorge.com/2009/10/hbase-architecture-101-storage.html HBase最隐秘的问题之一就是它的数据是如何存储的。虽然大多数用户都不会因为这个问...
阅读(3504) 评论(0)

[置顶] hadoop出现元数据不能更新且SNN合并失效

问题表现: NameNode 保存edits文件 停留在5.3号凌晨。SNN执行合并文件报 空指针错误,导致无法正常合并元数据 原因:要弄清原因首先需要清楚SNN合并流程,NN写editslog流程等等。简单说来如下: 1 在5.3号 SNN合并文件后并成功将合并的数据put到NN。当NN在关闭临时edit文件edit.new,打开edits文件时报错:unable to...
阅读(1784) 评论(0)

[置顶] hadoop metrics 各参数解释

研究使用hadoop的人 对hadoop中详细的计数器有所了解,但是很多人在想完全清楚所有metrics时 发愁找不到资料。而且在代码中查找时介绍也比较少。先罗列出所有。 dfs.datanode.blockChecksumOp_avg_time 块校验平均时间 dfs.datanode.blockChecksumOp_num_ops 块检验次数 dfs.datanode.blockRe...
阅读(4965) 评论(2)

[置顶] rpm安装和卸载脚本的工作原理[重点关注]

http://www.ibm.com/developerworks/cn/linux/management/package/rpm/part3/ 安装和卸载脚本的工作原理 安装和卸载脚本看起来很简单,但它们工作原理中的一些意外可能会引起大问题。...
阅读(1086) 评论(0)

SO_SNDBUF and SO_RECVBUF

参见 http://stackoverflow.com/questions/4257410/what-are-so-sndbuf-and-so-recvbuf The "SO_" prefix is for "socket option", so yes, these are per-socket settings for the per-socket buffers. There ar...
阅读(3322) 评论(0)

使用hive 对lzo数据分析时的报错

之前建立map作业 将文本文件通过combineInputFormat 合并 小文件并压缩为lzo文件 ,作业设置: conf.setInt("mapred.min.split.size", 1);         conf.setLong("mapred.max.split.size", 600000000); // 600MB,使得每个压缩后文件120MB左右     ...
阅读(5231) 评论(0)

Hadoop MultiOutputs 实现

工作中有人问 MultiOutputs 实现为啥在指定reduce数为1时  结果文件数依然是 好多个?这其实由其实现逻辑决定的。 在MR中 一般job都可以通过map reduce 默认的OutputCollector 实现 写入作业初始化时指定格式的输出中,只能一个文件格式。当需要将结果分门别类区分或者使用不同格式存储在多个文件结果中时 就需要 MultiOutputs了。 Mul...
阅读(4079) 评论(1)

cdh4.2 在mac OS X10.9.1下编译

编译  hadoop-2.0.0-cdh4.2 下载 tar 包 http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH4/latest/CDH-Version-and-Packaging-Information/cdhvd_topic_6_1.html  安装maven  3.0.5  并配置环境变量 M...
阅读(5420) 评论(0)

Java的类加载器简述

类加载器是java设计中一项创新,独立于JVM之外,类如何加载可以由JVM外部实现。如早期的Applets,曾经大红的OSGI等。 类加载器就是加载类的。一个jvm中可以存在若干个类加载器。相同的字节码因为类加载器不同,产生的实例肯定不同,即用instanceof 或者equal,isInstance()等方法对较相同字节码不同类加载器对象时返回均为false。 开发者可以继承java...
阅读(3535) 评论(0)

为多租户场景集群配置Impala和Mapreduce

原文标题:Configuring Impala and MapReduce for Multi-tenant Performance(http://blog.cloudera.com/blog/2013/06/configuring-impala-and-mapreduce-for-multi-tenant-performance/) 为多租户场景集群配置Impala和Mapreduce ...
阅读(7770) 评论(1)

Hive SQL解析/执行计划生成流程分析

Hive SQL解析/执行计划生成流程分析 近在研究Impala,还是先回顾下Hive的SQL执行流程吧。 Hive有三种用户接口: cli (Command line interface) bin/hive或bin/hive –service cli 命令行方式(默认) hive-server/hive-server2 bin/h...
阅读(9495) 评论(1)

如何使用vagrant在虚拟机安装hadoop集群

原文地址:http://blog.cloudera.com/blog/2013/04/how-to-use-vagrant-to-set-up-a-virtual-hadoop-cluster/ vagrant 是一个非常好用的工具,可以用它来在单台物理机器编程管理多个虚拟机(vms)。其支持原生VirtualBox,并同时提供了对VMware Fusion、Amazon EC2虚拟机集群的...
阅读(8189) 评论(1)

关于hadoop mapreduce的job cleanup阶段

近段时间发现好多分析的mr作业延迟1个小时到2个小时,其实那个作业平时可能会只需要20分钟。分析作业状态发现延迟是在job的cleanup阶段。        近段时间由于用户的增长及数据的持续飙升,集群作业越来越多,每个作业占用槽位也不断增长,导致集群槽位紧张,所以集群出现排队现象本来运算正常,但是如果整个作业setup、map、reduce都处理完了,仅剩cleanup(极其轻量)没执行完导...
阅读(7841) 评论(2)

hive sequencefile 和rcfile 效率对比

源数据放在test1表中,大小 26413896039 Byte。 创建sequencefile 压缩表test2,使用insert  overwrite table test2 select ...语句将test1数据导入 test2 ,设置配置项: set hive.exec.compress.output=true; set mapred.output.compress=tru...
阅读(7466) 评论(0)

Google Dremel 原理 - 如何能3秒分析1PB

原链:http://www.yankay.com/google-dremel-rationale/ 简介 Dremel 是Google 的“交互式”数据分析系统。可以组建成规模上千的集群,处理PB级别的数据。MapReduce处理一个数据,需要分钟级的时间。作为MapReduce的发起人,Google开发了Dremel将处理时间缩短到秒级,作为MapReduce的有力补...
阅读(3503) 评论(0)

hadoop默认参数

1       常用的端口配置 1.1  HDFS端口   参数 描述 默认 配置文件 例子值 fs.default.name namenode namenode RPC交互端口 8020 core-site.xml hdfs://ma...
阅读(9897) 评论(0)
137条 共10页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:598971次
    • 积分:6343
    • 等级:
    • 排名:第3830名
    • 原创:72篇
    • 转载:63篇
    • 译文:2篇
    • 评论:113条
    文章分类