hadoop
文章平均质量分 89
colossus_bigdata
大数据&微服务架构师
展开
-
CDH升级记录(5.1->5.2)
CM升级运维:root统一密码不要误删集群备份文件登录cmserver安装的主机,执行命令:cat /etc/cloudera-scm-server/db.properties登录postgresql数据库psql -U scm -p 7432 输入密码:备份CM数据:pg_dump -h cdhmaster -p 7432 -U sc原创 2015-08-02 08:07:12 · 1160 阅读 · 0 评论 -
impala一些乱七八糟的整理
一、load操作1.不支持LOCAL关键字,不能load本地文件,只能load HDFS中的文件。2.同一张表不能同时存在压缩与非压缩格式的文件3.load操作是一个move操作。hive从本地磁盘的load操作是copy操作。4. hdfs文件夹中的load操作不会move隐藏文件。5.load后文件名会保留下来,如果有名称冲突,会把新move的文件改名,而在原创 2015-08-02 08:36:28 · 14478 阅读 · 3 评论 -
yarn架构-Capacity Scheduler
yarn框架中调度器的一种-CapacityScheduler,调度器是yarn架构中的resourcemanager的一种可插拔式组件,该组件使得多用户可以共享集群资源,另外一种常用的调度器是Fair Scheduler。再次附上神图:在HOD架构中,每个用户或者用户组拥有私有的集群,这些集群是动态分配的,但是只有有限的弹性,这可能导致集群的效率低下和数据的局部性,组织间共享集群原创 2015-08-08 15:38:26 · 3789 阅读 · 0 评论 -
job的提交过程源代码分析
job.waitForCompletion(true)开始: waitForCompletion方法如下:public boolean waitForCompletion (boolean verbose ) throws IOException, InterruptedException,原创 2014-03-17 15:43:21 · 1191 阅读 · 0 评论 -
hadoop源码阅读之一:MR第二步:Mapper类
好久没写这个了 上一篇 http://blog.csdn.net/englishsname/article/details/45743901 还是好久前写的,下面学习mr步骤的第二步:Mapper过程源码,也就是我们所说的mapreduce的map阶段,自定义的mapper类都是继承自该类并实现其map方法。Mapper类包含:1.成员变量context:context继承自Map原创 2016-02-03 23:57:31 · 610 阅读 · 1 评论