大数据耕田者-CSDN博客

转载 spark job提交过程

Driver的任务提交过程 1、Driver程序的代码运行到action操作，触发了SparkContext的runJob方法。 2、SparkContext调用DAGScheduler的runJob函数。 3、DAGScheduler把Job划分stage，然后把stage转化为相应的Tasks，把Tasks交给TaskScheduler。 4、通过TaskScheduler把Tasks添

2016-11-09 17:28:35 5840

转载 hadoop HA机制

NameNode 的主备切换实现 NameNode 主备切换主要由 ZKFailoverController、HealthMonitor 和 ActiveStandbyElector 这 3 个组件来协同实现： ZKFailoverController 作为 NameNode 机器上一个独立的进程启动 (在 hdfs 启动脚本之中的进程名为 zkfc)，启动的时候会创建 HealthMon

2016-11-09 10:55:55 4537 3

在读取HDFS上的文件时，Client、NameNode以及DataNode都会相互关联。按照一定的顺序来实现读取这一过程，读取过程如下图所示：　　通过上图，读取HDFS上的文件的流程可以清晰的知道，Client通过实例打开文件，找到HDFS集群的具体信息（我们需要操作的是 ClusterA，还是ClusterB，需要让Client端知道），这里会创建一个输入流，这个输入流是连接DataNode的桥

2016-11-08 16:13:10 1493

转载 hadoop写文件流程分析

1.主要概念1.1 NameNode（NN）： HDFS系统核心组件，负责分布式文件系统的名字空间管理、INode表的文件映射管理。如果不开启备份/故障恢复/Federation模式，一般的HDFS系统就只有1个NameNode，当然这样是存在单点故障隐患的。NN管理两个核心的表：文件到块序列的映射、块到机器序列的映射。第一个表存储在磁盘中，第二表在NN每次启动后重建。1.2 NameNode

2016-11-08 14:53:24 1707

翻译 hive中快速对表结构数据进行复制

1. CREATE TABLE new_table LIKE old_table;2. 使用hadoop fs -cp 命令，把old_table对应的HDFS目录的文件夹全部拷贝到new_table对应的HDFS目录下；3. 使用MSCK REPAIR TABLE new_table;修复新表的分区元数据；

2016-05-13 11:56:54 6495

空空如也

angularjs部署到web服务器上点击导航栏易出现调用setTimeVal方法找不到？请问啥原因

2016-02-22

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

liu812769634的博客