spark job提交过程

Driver的任务提交过程 1、Driver程序的代码运行到action操作,触发了SparkContext的runJob方法。 2、SparkContext调用DAGScheduler的runJob函数。 3、DAGScheduler把Job划分stage,然后把stage转化为相应的Ta...

2016-11-09 17:28:35

阅读数 4685

评论数 0

hadoop HA机制

NameNode 的主备切换实现 NameNode 主备切换主要由 ZKFailoverController、HealthMonitor 和 ActiveStandbyElector 这 3 个组件来协同实现: ZKFailoverController 作为 NameNode 机器上一个...

2016-11-09 10:55:55

阅读数 3410

评论数 1

hadoop读取文件流程分析

在读取HDFS上的文件时,Client、NameNode以及DataNode都会相互关联。按照一定的顺序来实现读取这一过程,读取过程如下图所示:  通过上图,读取HDFS上的文件的流程可以清晰的知道,Client通过实例打开文件,找到HDFS集群的具体信息(我们需要操作的是 ClusterA,还是...

2016-11-08 16:13:10

阅读数 1180

评论数 0

hadoop写文件流程分析

1.主要概念1.1 NameNode(NN): HDFS系统核心组件,负责分布式文件系统的名字空间管理、INode表的文件映射管理。如果不开启备份/故障恢复/Federation模式,一般的HDFS系统就只有1个NameNode,当然这样是存在单点故障隐患的。NN管理两个核心的表:文件到块序列的...

2016-11-08 14:53:24

阅读数 1211

评论数 0

hive中快速对表结构数据进行复制

1. CREATE TABLE new_table LIKE old_table; 2. 使用hadoop fs -cp 命令,把old_table对应的HDFS目录的文件夹全部拷贝到new_table对应的HDFS目录下; 3. 使用MSCK REPAIR TABLE new_tab...

2016-05-13 11:56:54

阅读数 5583

评论数 0

提示
确定要删除当前文章?
取消 删除