a-CSDN博客

原创 Hive中优化部分

Map Join顾名思义，就是在Map阶段进行表之间的连接，而不需要进入到Reduce阶段才进行连接，这样就节省了在Shuffle阶段时要进行大量数据传输，（就是在Map阶段将小表读入到内存，顺序扫描大表完成join）.Map端的主要工作：为来自不同表或文件的数据，进行打标签以区别不同源的记录，然后用JOIN字段作为Key，其余部分数据和新加的标志作为Value，最后进行输出。RBO优化：基于规则优化的优化器，优化规则都已经预先定义好了，只需要将SQL往这些规则上套即可，例如谓词下推，列裁剪，常量折叠等。

2023-11-01 21:19:09 95 1

原创 Hadoop 常用的压缩算法有哪些，有什么区别

LZO:压缩比一般，支持split（需要建索引，文件修改后需要重新建索引），压缩/解压速度快，支持Hadoop Native库，需要自己安装；Zstd:压缩比高跟Gzip相当，不支持spilt,压缩/解压速度快，支持Hadoop Native库，需要自己安装。Snappy:压缩比一般，不支持spilt，压缩/解压速度快，支持Hadoop Native库，需要自己安装。LZ4:压缩比一般，不支持split,压缩/解压速度快，支持Hadoop Native库，需要自己安装。适用于Map中间结果的压缩。

2023-10-27 22:13:38 290 1

原创 Hadoop MR 模型中数据倾斜一般是在 Mapper 端发生的还是在 Reducer 端发生的，为什么

1.数据分布不均匀：在MapReduce中，Mapper输出的数据会被基于Key被分组并发送到Reduce进行处理，如果某些key的数据量显著大于其他key，那么某些Reduce会收到更多数据，从而导致处理时间长，而其他Reduce处理完数据后可能就处于空闲状态。3.固定的Reduce数量：在MapReduce作业中，Reduce的数量是固定的，因此，即使某些Key有大量的值，它们仍然会被发送到一个Reduce上，而不是分散到多个Reduce上。MR模型中数据倾斜一般是在Reducer端发生的。

2023-10-26 21:26:45 177

原创为什么会产生 YARN 它解决了什么问题

总结来说，YARN的出现主要是为了解决早期Hadoop中的一些问题，如单一调度器、低效的资源利用等。通过将资源管理和作业调度拆分成独立的模块，YARN架构更加灵活、可扩展，使得Hadoop生态系统可以支持多计算框架，并提供更高效、更灵活的资源管理和作业调度能力。多调度器支持：YARN支持多种调度器，如容量调度器（Capacity Scheduler）、公平调度器（Fair Scheduler）等，可以根据需求选择合适的调度算法和策略，实现对集群资源的更精细管理和调度。这限制了集群资源的灵活利用。

2023-10-25 22:13:39 286

原创 Hadoop中HDFS的读写流程与Hadoop~Mapreduce计算流程，Yarn的计算流程。

切完片之后每个split切片会生成一个计算任务（MapTask）,读取的数据的格式是以KV形式，K表示行偏移量，V表示一行数据，写入到MapTask的环形缓冲区中（环形缓冲区：1.底层是一个数组，逻辑上数组首尾相接，2.数组的大小默认是100M,也是可以根据性能调整，当数据写到80%时，开始按照元数据中的分区与排序信息触发溢写，3.在剩余的20%中间设置新的赤道，如此反复，环形数据缓冲区实现无卡顿读写，4.我们在分区和排序中默认是使用Hash分区与快排）客户端向DN发起请求建立通信连接进行数据块的传输。

2023-10-23 22:27:23 152

原创有关于Zookeeper的一些面试题

Zookeeper的监听机制是通过注册监听器实现的，客户端可以注册对Znode的三种事件进行监听：节点创建，节点删除和节点数据更新，当这些事件发生时，zookeeper就会通知相关的监听器，客户端可以注册不同的监听器来处理不同类型的事件。当整个集群启动时，或者当leader节点出现网络中断，和集群崩溃等情况时，ZAB协议就会进入恢复模式并选举产生出新的leader，当Leader服务器选举出来后，并且集群中有过半的机器和该Leader节点完成数据同步后，ZAB协议就会退出恢复模式。

2023-10-20 21:24:35 80

2302_77630591的博客

原创 Hive中优化部分

原创 Hadoop 常用的压缩算法有哪些，有什么区别

原创 Hadoop MR 模型中数据倾斜一般是在 Mapper 端发生的还是在 Reducer 端发生的，为什么

原创为什么会产生 YARN 它解决了什么问题

原创 Hadoop中HDFS的读写流程与Hadoop~Mapreduce计算流程，Yarn的计算流程。

原创有关于Zookeeper的一些面试题

大数据hive中窗口函数的一些常用函数

空空如也

原创 Hive中优化部分

原创 Hadoop 常用的压缩算法有哪些，有什么区别

原创 Hadoop MR 模型中数据倾斜一般是在 Mapper 端发生的还是在 Reducer 端发生的，为什么

原创 为什么会产生 YARN 它解决了什么问题

原创 Hadoop中HDFS的读写流程与Hadoop~Mapreduce计算流程，Yarn的计算流程。

原创 有关于Zookeeper的一些面试题

大数据hive中窗口函数的一些常用函数

空空如也

原创为什么会产生 YARN 它解决了什么问题

原创有关于Zookeeper的一些面试题