自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Hive中优化部分

Map Join顾名思义,就是在Map阶段进行表之间的连接,而不需要进入到Reduce阶段才进行连接,这样就节省了在Shuffle阶段时要进行大量数据传输,(就是在Map阶段将小表读入到内存,顺序扫描大表完成join).Map端的主要工作:为来自不同表或文件的数据,进行打标签以区别不同源的记录,然后用JOIN字段作为Key,其余部分数据和新加的标志作为Value,最后进行输出。RBO优化:基于规则优化的优化器,优化规则都已经预先定义好了,只需要将SQL往这些规则上套即可,例如谓词下推,列裁剪,常量折叠等。

2023-11-01 21:19:09 95 1

原创 Hadoop 常用的压缩算法有哪些,有什么区别

LZO:压缩比一般,支持split(需要建索引,文件修改后需要重新建索引),压缩/解压速度快,支持Hadoop Native库,需要自己安装;Zstd:压缩比高跟Gzip相当,不支持spilt,压缩/解压速度快,支持Hadoop Native库,需要自己安装。Snappy:压缩比一般,不支持spilt,压缩/解压速度快,支持Hadoop Native库,需要自己安装。LZ4:压缩比一般,不支持split,压缩/解压速度快,支持Hadoop Native库,需要自己安装。适用于Map中间结果的压缩。

2023-10-27 22:13:38 290 1

原创 Hadoop MR 模型中数据倾斜一般是在 Mapper 端发生的还是在 Reducer 端发生的,为什么

1.数据分布不均匀:在MapReduce中,Mapper输出的数据会被基于Key被分组并发送到Reduce进行处理,如果某些key的数据量显著大于其他key,那么某些Reduce会收到更多数据,从而导致处理时间长,而其他Reduce处理完数据后可能就处于空闲状态。3.固定的Reduce数量:在MapReduce作业中,Reduce的数量是固定的,因此,即使某些Key有大量的值,它们仍然会被发送到一个Reduce上,而不是分散到多个Reduce上。MR模型中数据倾斜一般是在Reducer端发生的。

2023-10-26 21:26:45 177

原创 为什么会产生 YARN 它解决了什么问题

总结来说,YARN的出现主要是为了解决早期Hadoop中的一些问题,如单一调度器、低效的资源利用等。通过将资源管理和作业调度拆分成独立的模块,YARN架构更加灵活、可扩展,使得Hadoop生态系统可以支持多计算框架,并提供更高效、更灵活的资源管理和作业调度能力。多调度器支持:YARN支持多种调度器,如容量调度器(Capacity Scheduler)、公平调度器(Fair Scheduler)等,可以根据需求选择合适的调度算法和策略,实现对集群资源的更精细管理和调度。这限制了集群资源的灵活利用。

2023-10-25 22:13:39 286

原创 Hadoop中HDFS的读写流程与Hadoop~Mapreduce计算流程,Yarn的计算流程。

切完片之后每个split切片会生成一个计算任务(MapTask),读取的数据的格式是以KV形式,K表示行偏移量,V表示一行数据,写入到MapTask的环形缓冲区中(环形缓冲区:1.底层是一个数组,逻辑上数组首尾相接,2.数组的大小默认是100M,也是可以根据性能调整,当数据写到80%时,开始按照元数据中的分区与排序信息触发溢写,3.在剩余的20%中间设置新的赤道,如此反复,环形数据缓冲区实现无卡顿读写,4.我们在分区和排序中默认是使用Hash分区与快排)客户端向DN发起请求建立通信连接进行数据块的传输。

2023-10-23 22:27:23 152

原创 有关于Zookeeper的一些面试题

Zookeeper的监听机制是通过注册监听器实现的,客户端可以注册对Znode的三种事件进行监听:节点创建,节点删除和节点数据更新,当这些事件发生时,zookeeper就会通知相关的监听器,客户端可以注册不同的监听器来处理不同类型的事件。当整个集群启动时,或者当leader节点出现网络中断,和集群崩溃等情况时,ZAB协议就会进入恢复模式并选举产生出新的leader,当Leader服务器选举出来后,并且集群中有过半的机器和该Leader节点完成数据同步后,ZAB协议就会退出恢复模式。

2023-10-20 21:24:35 80

大数据hive中窗口函数的一些常用函数

大数据hive中窗口函数的一些常用函数

2023-10-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除