自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 如何优化Hive Join:提升大数据查询效率的实战技巧

Hive Join优化是提升大数据查询性能的关键。本文将介绍几种常见的优化策略,包括调整Join顺序、使用MapJoin、合理选择Join类型、分区表设计以及并行度优化等。

2025-06-04 12:22:52 518

原创 HDFS的优缺点全解析——基础知识详解

HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)是Apache Hadoop框架中最核心的模块之一,专为运行在通用硬件上的大规模数据存储而设计。HDFS的设计初衷是存储超大规模数据集,满足“写一次、读多次”的访问模式,在高吞吐、大文件读写、容错能力方面具有出色的性能。它的原型来源于Google于2003年提出的**Google File System(GFS)**论文,Hadoop团队在此基础上进行开源实现,并持续迭代优化。

2025-05-13 23:04:50 643

原创 HDFS中每个块的大小以及为什么是128MB —— 深入理解Hadoop分布式文件系统的核心设计

随着大数据时代的到来,HDFS作为Hadoop的核心组件,其块(Block)大小设计成为影响系统性能的关键因素。本文深入探讨了HDFS中默认块大小为128MB的原因,从系统性能、NameNode资源占用、MapReduce效率等多个角度进行全面分析,并结合实际应用场景提供配置建议,帮助读者全面理解块大小设计的技术原理与实践意义。

2025-05-13 20:39:54 1072

原创 HDFS 核心组件详解:NameNode、DataNode 与 Secondary NameNode 原理解析

HDFS 是 Hadoop 生态系统中专为海量数据存储而设计的分布式文件系统,其核心由 NameNode、DataNode 和 Secondary NameNode 三个组件构成。本文详细解析这三大组件的功能职责、运行机制及其在数据存储、容错和元数据管理中的作用,帮助读者全面掌握 HDFS 的系统架构与工作原理。

2025-05-12 20:35:02 971

原创 一文搞懂并实战:HDFS分布式文件系统搭建全过程详解(含图文+踩坑记录)

本章节围绕HDFS的实际应用展开,介绍了两个典型的企业级实战案例:基于HDFS的数据采集平台搭建与企业离线数仓的存储层设计,并详细解析了HDFS在部署与运行过程中常见的问题及其排查方法,帮助读者系统掌握HDFS在实际业务中的应用技巧与运维经验。

2025-05-12 19:46:10 973

原创 Shell脚本编程实战:6个经典案例详解

Shell脚本是Linux系统管理和自动化任务中不可或缺的强大工具。本文将通过6个实用案例,带您从基础到进阶掌握Shell脚本编程的核心技能。每个案例都包含完整代码、执行结果和详细解析,帮助您快速提升Shell编程能力。

2025-05-08 20:10:26 568

原创 解锁Shell脚本编程艺术:从基础到高阶的系统化实践指南

Shell 语言作为系统运维和自动化任务处理的得力工具,以其简洁的语法、强大的功能以及跨平台的特性,在编程领域占据着不可或缺的地位。从基础语法到高级特性,从理论知识到实战演练,我们逐步揭开了 Shell 语言的神秘面纱,领略到了它在提高工作效率、实现复杂任务自动化方面的巨大潜力。通过学习 Shell 语言,掌握了变量、运算符、条件判断、流程控制等基础语法,这些语法是构建 Shell 脚本的基石,能够编写简单的命令序列,实现基本的任务自动化。

2025-05-08 20:00:37 1020

原创 MapReduce的基本原理分析

1.MR的计算流程计算1T数据中每个单词出现的次数–>wordcount。

2025-05-07 20:40:21 799

原创 Zookeeper CAP原则

在大型网站应用中,数据规模总是快速扩张的,因此可伸缩性即分区容忍性必不可少,规模变大以 后,机器数量也会变得庞大,这是网络和服务器故障会频繁出现,要想保证应用可用,就必须保证 分布式处理系统的高可用性。如果要求两个操作之间要完整的进行,因为涉及到通信,肯定存在某一个时刻只完成一部分的业务 操作,在通信完成的这一段时间内,数据就是不一致性的。如果要求对数据进行分区了,就说明了必须节点之间必须进行通信,涉及到通信,就无法确保在有限的时间内完成指定的任务。关注的是在在一个事务内,对数据的一些约束。

2024-10-28 17:16:57 752

原创 Hbas 三层索引

HBase以前内部维护了两张特殊的表, -ROOT-,.META表,用来查询各种表的Hregion位置,这两张特殊的表也会像Hbase中的其他三个表一样切分成多个Hregion,-ROOT-表比.META.更特殊一些,永远不会被切分超过一个Hregion 这样保证了只需要三次跳转就可以定位到任意的HRgion。

2024-10-23 22:31:54 555

原创 Spark通用执行流程

Spark执行流程

2024-10-21 23:15:46 534

spark-3.3.2-bin-hadoop3.tgz

Apache Spark 是专门为大规模数据处理而设计的快速通用的计算引擎。 Spark 诞生自加州大学伯克利分校的 AMP (AMP:Algorithms,Machines,and People) 实验室,是一种类似 Hadoop MapReduce 的通用并行计算框架,它拥有 Hadoop MapReduce 所具有的优点,但不同于 MapReduce 的是 Job 的中间输出结果可以缓存在内存中,从而不再需要 读写 HDFS ,减少磁盘数据交互,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的算法。 Spark 也被称为 基于内存的分布式计算框架.

2024-10-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除