- 博客(11)
- 收藏
- 关注
原创 如何优化Hive Join:提升大数据查询效率的实战技巧
Hive Join优化是提升大数据查询性能的关键。本文将介绍几种常见的优化策略,包括调整Join顺序、使用MapJoin、合理选择Join类型、分区表设计以及并行度优化等。
2025-06-04 12:22:52
518
原创 HDFS的优缺点全解析——基础知识详解
HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)是Apache Hadoop框架中最核心的模块之一,专为运行在通用硬件上的大规模数据存储而设计。HDFS的设计初衷是存储超大规模数据集,满足“写一次、读多次”的访问模式,在高吞吐、大文件读写、容错能力方面具有出色的性能。它的原型来源于Google于2003年提出的**Google File System(GFS)**论文,Hadoop团队在此基础上进行开源实现,并持续迭代优化。
2025-05-13 23:04:50
643
原创 HDFS中每个块的大小以及为什么是128MB —— 深入理解Hadoop分布式文件系统的核心设计
随着大数据时代的到来,HDFS作为Hadoop的核心组件,其块(Block)大小设计成为影响系统性能的关键因素。本文深入探讨了HDFS中默认块大小为128MB的原因,从系统性能、NameNode资源占用、MapReduce效率等多个角度进行全面分析,并结合实际应用场景提供配置建议,帮助读者全面理解块大小设计的技术原理与实践意义。
2025-05-13 20:39:54
1072
原创 HDFS 核心组件详解:NameNode、DataNode 与 Secondary NameNode 原理解析
HDFS 是 Hadoop 生态系统中专为海量数据存储而设计的分布式文件系统,其核心由 NameNode、DataNode 和 Secondary NameNode 三个组件构成。本文详细解析这三大组件的功能职责、运行机制及其在数据存储、容错和元数据管理中的作用,帮助读者全面掌握 HDFS 的系统架构与工作原理。
2025-05-12 20:35:02
971
原创 一文搞懂并实战:HDFS分布式文件系统搭建全过程详解(含图文+踩坑记录)
本章节围绕HDFS的实际应用展开,介绍了两个典型的企业级实战案例:基于HDFS的数据采集平台搭建与企业离线数仓的存储层设计,并详细解析了HDFS在部署与运行过程中常见的问题及其排查方法,帮助读者系统掌握HDFS在实际业务中的应用技巧与运维经验。
2025-05-12 19:46:10
973
原创 Shell脚本编程实战:6个经典案例详解
Shell脚本是Linux系统管理和自动化任务中不可或缺的强大工具。本文将通过6个实用案例,带您从基础到进阶掌握Shell脚本编程的核心技能。每个案例都包含完整代码、执行结果和详细解析,帮助您快速提升Shell编程能力。
2025-05-08 20:10:26
568
原创 解锁Shell脚本编程艺术:从基础到高阶的系统化实践指南
Shell 语言作为系统运维和自动化任务处理的得力工具,以其简洁的语法、强大的功能以及跨平台的特性,在编程领域占据着不可或缺的地位。从基础语法到高级特性,从理论知识到实战演练,我们逐步揭开了 Shell 语言的神秘面纱,领略到了它在提高工作效率、实现复杂任务自动化方面的巨大潜力。通过学习 Shell 语言,掌握了变量、运算符、条件判断、流程控制等基础语法,这些语法是构建 Shell 脚本的基石,能够编写简单的命令序列,实现基本的任务自动化。
2025-05-08 20:00:37
1020
原创 Zookeeper CAP原则
在大型网站应用中,数据规模总是快速扩张的,因此可伸缩性即分区容忍性必不可少,规模变大以 后,机器数量也会变得庞大,这是网络和服务器故障会频繁出现,要想保证应用可用,就必须保证 分布式处理系统的高可用性。如果要求两个操作之间要完整的进行,因为涉及到通信,肯定存在某一个时刻只完成一部分的业务 操作,在通信完成的这一段时间内,数据就是不一致性的。如果要求对数据进行分区了,就说明了必须节点之间必须进行通信,涉及到通信,就无法确保在有限的时间内完成指定的任务。关注的是在在一个事务内,对数据的一些约束。
2024-10-28 17:16:57
752
原创 Hbas 三层索引
HBase以前内部维护了两张特殊的表, -ROOT-,.META表,用来查询各种表的Hregion位置,这两张特殊的表也会像Hbase中的其他三个表一样切分成多个Hregion,-ROOT-表比.META.更特殊一些,永远不会被切分超过一个Hregion 这样保证了只需要三次跳转就可以定位到任意的HRgion。
2024-10-23 22:31:54
555
spark-3.3.2-bin-hadoop3.tgz
2024-10-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人