kocdaniel-CSDN博客

原创 Hive使用过程中踩过的坑

hive启动时错误1Cannot execute statement:impossible to write to binary long since BINLOG_FORMAT = STATEMENT...当启动时报错Caused by: javax.jdo.JDOException:Couldnt obtain a new sequence(unique id):Cannot exec...

2019-10-27 10:30:41 1624

一、Zookeeper工作机制分布式和集中式系统相比，有很多优势，比如更强的计算能力，存储能力，避免单点故障等问题。但是由于在分布式部署的方式遇到网络故障等问题的时候怎么保证各个节点数据的一致性和可用性是比较关键的问题。那么，对于分布式集群来说，我们需要一个能够在各个服务和节点之间进行协调和服务的中间人——Zookeeper。Zookeeper从设计模式角度来理解：是一个基于观察者模式设计的...

2019-10-09 19:43:38 1136

原创 MapReduce与Yarn 的详细工作流程分析

MapReduce详细工作流程之Map阶段如上图所示首先有一个200M的待处理文件切片：在客户端提交之前，根据参数配置，进行任务规划，将文件按128M每块进行切片提交：提交可以提交到本地工作环境或者Yarn工作环境，本地只需要提交切片信息和xml配置文件，Yarn环境还需要提交jar包；本地环境一般只作为测试用提交时会将每个任务封装为一个job交给Yarn来处理（详细见后边的Y...

2019-10-08 20:58:24 1190

原创 MapReduce之Job提交流程源码和切片源码分析

hadoop2.7.2 MapReduce Job提交源码及切片源码分析1. 首先从waitForCompletion函数进入boolean result = job.waitForCompletion(true);/** * Submit the job to the cluster and wait for it to finish. * @param verbo...

2019-09-29 18:37:31 945

原创浅谈HDFS（三）之DataNote

DataNode工作机制一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。DataNode启动后向NameNode注册，通过后，周期性（1小时）的向NameNode上报所有的块信息。DataNode与NameNode之间有一个心跳事件，心跳是每3秒一次，心跳返回结果带有NameNode给该Data...

2019-09-28 21:09:11 1215

原创浅谈HDFS（二）之NameNode与SecondaryNameNode

NN与2NN工作机制思考：NameNode中的元数据是存储在哪里的？假设存储在NameNode节点的硬盘中，因为经常需要随机访问和响应客户请求，必然效率太低，所以是存储在内存中的但是，如果存储在内存中，一旦断电，元数据丢失，整个集群便无法工作，因此会在硬盘中产生备份元数据的Fsimage但是这样又会有新的问题出现，当内存中的元数据更新时，需要同时更新Fsimage，否则会发生一致...

2019-09-27 20:56:00 382

原创浅谈HDFS（一）

产生背景及定义HDFS：分布式文件系统，用于存储文件，主要特点在于其分布式，即有很多服务器联合起来实现其功能，集群中的服务器各有各的角色随着数据量越来越大，一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是管理和维护极不方便，于是迫切需要一种系统来管理多台机器上的文件，这就是分布式管理系统，HDFS是其中一种。HDFS的使用适合一次写入，多次读出的场景，且不...

2019-09-26 10:38:49 665

原创 Hadoop之完全分布式运行模式

集群环境：centOs6.8：hadoop102，hadoop103，hadoop104jdk版本：jdk1.8.0_144hadoop版本：Hadoop 2.7.2首先准备三台客户机（hadoop102，hadoop103，hadoop104），关闭防火墙，修改为静态ip和ip地址映射配置集群编写集群分发脚本创建一个远程同步的脚本xsync，并放到当前用户下新建的b...

2019-09-24 20:46:26 172

gqing_的博客