hadoop
文章平均质量分 81
guoqiangma
这个作者很懒,什么都没留下…
展开
-
hadoop shell 命令
概述 所有的hadoop命令均由bin/hadoop脚本引发。不指定参数运行hadoop脚本会打印所有命令的描述。 用法:hadoop [--config confdir] [COMMAND] [GENERIC_OPTIONS] [COMMAND_OPTIONS] Hadoop有一个选项解析框架用于解析一般的选项和运行类。 命令选项 --conf转载 2013-09-02 08:58:10 · 665 阅读 · 0 评论 -
hadoop监控系统
ELLA 监控需求XMonitor监控系统( svn目录 svn.d.xiaonei.com/hadoop/Xmonitor)1 监控展示NameNode : gc_heap/load/performance/cluster/operationJobTracker : gc_heap/rpc/job_status/queue_statusHMaster:Monitor: b原创 2014-04-11 17:34:07 · 1530 阅读 · 0 评论 -
hadoop系统运维-linux quta配置
1. 客户端 quta 配额修改(1) 编辑账户/群组的阀值与宽限时间用edquota去设置用户myquota1的磁盘使用限制。七个栏位的意义分别是:(1)檔案系統 (filesystem):說明該限制值是針對哪個檔案系統 (或 partition);(2)磁碟容量 (blocks):這個數值是 quota 自己算出來的,單位為 Kbytes,請不要更動他;原创 2014-04-09 00:31:15 · 1003 阅读 · 0 评论 -
hadoop使用中的几个小细节
最近在hadoop实际使用中有以下几个小细节分享:1 中文问题 从url中解析出中文,但hadoop中打印出来仍是乱码?我们曾经以为hadoop是不支持中文的,后来经过查看源代码,发现hadoop仅仅是不支持以gbk格式输出中文而己。 这是TextOutputFormat.class中的代码,hadoop默认的输出都是继承自FileOutputFormat来的,File转载 2014-02-25 00:36:05 · 513 阅读 · 0 评论 -
hadoop2.2.0编译
安装依赖包这些库啊包啊基本都会在编译过程中用到,缺少的话会影响编译,看到error了再找solution非常麻烦,提前装好一劳永逸。$ sudo apt-get install g++ autoconf automake libtool cmake zlib1g-dev pkg-config libssl-dev因为还要用到ssh,所以如果机器上没有的话,装个openssh的客户端原创 2014-02-24 16:12:06 · 626 阅读 · 0 评论 -
YARN编程实例—distributedshell源码分析
1. 概述本文介绍YARN自带的一个非常简单的应用程序编程实例---distributedshell,他可以看做YARN编程中的“hello world”,它的主要功能是并行执行用户提供的shell命令或者shell脚本。本文主要介绍distributedshell 的实现方法。Distributedshell的源代码在文件夹src\hadoop-yarn-proje原创 2014-02-24 16:13:26 · 773 阅读 · 0 评论 -
[YARN] 编程模型-MR
本文会首先介绍Yarn上如何支持MapReduce编程模型,然后再阐述在Yarn上构建的编程模型和运行时环境的方法,最后总结使用Yarn构建分布式系统的一些高级特性。Yarn支持MapReduce编程模型 经过对编程模型的分析,编程模型是由作业执行逻辑、数据组织方式以及中间数据传输模式三个部分确定。Hadoop1.0版本,运行时环境和编程模型紧耦合,也就是编程模型这三部分全转载 2014-02-23 22:50:04 · 1824 阅读 · 0 评论 -
hadoop分布式缓存
分布式缓存一个最重要的应用就是在进行join操作的时候,如果一个表很大,另一个表很小很小,我们就可以将这个小表进行广播处理,即每个计算节点上都存一份,然后进行map端的连接操作,经过我的实验验证,这种情况下处理效率大大高于一般的reduce端join,广播处理就运用到了分布式缓存的技术。DistributedCache将拷贝缓存的文件到Slave节点在任何Job在节点上执行之前,文件在每个原创 2014-01-21 23:28:59 · 1505 阅读 · 0 评论 -
hadoop集群负载不均衡及balance工具详解
在线上的hadoop集群运维过程中,hadoop 的balance工具通常用于平衡hadoop集群中各datanode中的文件块分布,以避免出现部分datanode磁盘占用率高的问题(这问题也很有可能导致该节点CPU使用率较其他服务器高)。可能的原因:1. 突然磁盘使用率变高而文件块数并没有很大的增加,极有可能是出现某个用户的作业产生大量大的文件,排查删除掉就课可以。注意将tras转载 2013-09-02 09:04:58 · 3259 阅读 · 0 评论 -
Haddoop RAID Node 调研
RAID Node 调研1. 简介分布式文件系统主要用于解决海量数据存储的问题,如Goolge、Facebook等大型互联网企业都使用分布式文件系统作为数据存储的基础设施,并在其上构建很多服务,分布式文件系统通常采用三副本的策略来保证数据的可靠性,但随着应用数据量的不断膨胀,三副本策略为可靠性牺牲的存储空间也越来越大,如何在不降低数据可靠性的基础上,进一步降低存储空间成本?原创 2014-04-11 18:22:27 · 973 阅读 · 0 评论