Kiss1024b-CSDN博客

原创如何优化Hive Join：提升大数据查询效率的实战技巧

Hive Join优化是提升大数据查询性能的关键。本文将介绍几种常见的优化策略，包括调整Join顺序、使用MapJoin、合理选择Join类型、分区表设计以及并行度优化等。

2025-06-04 12:22:52 518

原创 HDFS的优缺点全解析——基础知识详解

HDFS（Hadoop Distributed File System，Hadoop分布式文件系统）是Apache Hadoop框架中最核心的模块之一，专为运行在通用硬件上的大规模数据存储而设计。HDFS的设计初衷是存储超大规模数据集，满足“写一次、读多次”的访问模式，在高吞吐、大文件读写、容错能力方面具有出色的性能。它的原型来源于Google于2003年提出的**Google File System（GFS）**论文，Hadoop团队在此基础上进行开源实现，并持续迭代优化。

2025-05-13 23:04:50 643

原创 HDFS中每个块的大小以及为什么是128MB —— 深入理解Hadoop分布式文件系统的核心设计

随着大数据时代的到来，HDFS作为Hadoop的核心组件，其块（Block）大小设计成为影响系统性能的关键因素。本文深入探讨了HDFS中默认块大小为128MB的原因，从系统性能、NameNode资源占用、MapReduce效率等多个角度进行全面分析，并结合实际应用场景提供配置建议，帮助读者全面理解块大小设计的技术原理与实践意义。

2025-05-13 20:39:54 1072

原创 HDFS 核心组件详解：NameNode、DataNode 与 Secondary NameNode 原理解析

HDFS 是 Hadoop 生态系统中专为海量数据存储而设计的分布式文件系统，其核心由 NameNode、DataNode 和 Secondary NameNode 三个组件构成。本文详细解析这三大组件的功能职责、运行机制及其在数据存储、容错和元数据管理中的作用，帮助读者全面掌握 HDFS 的系统架构与工作原理。

2025-05-12 20:35:02 971

原创一文搞懂并实战：HDFS分布式文件系统搭建全过程详解（含图文+踩坑记录）

本章节围绕HDFS的实际应用展开，介绍了两个典型的企业级实战案例：基于HDFS的数据采集平台搭建与企业离线数仓的存储层设计，并详细解析了HDFS在部署与运行过程中常见的问题及其排查方法，帮助读者系统掌握HDFS在实际业务中的应用技巧与运维经验。

2025-05-12 19:46:10 973

原创 Shell脚本编程实战：6个经典案例详解

Shell脚本是Linux系统管理和自动化任务中不可或缺的强大工具。本文将通过6个实用案例，带您从基础到进阶掌握Shell脚本编程的核心技能。每个案例都包含完整代码、执行结果和详细解析，帮助您快速提升Shell编程能力。

2025-05-08 20:10:26 568

原创解锁Shell脚本编程艺术：从基础到高阶的系统化实践指南

Shell 语言作为系统运维和自动化任务处理的得力工具，以其简洁的语法、强大的功能以及跨平台的特性，在编程领域占据着不可或缺的地位。从基础语法到高级特性，从理论知识到实战演练，我们逐步揭开了 Shell 语言的神秘面纱，领略到了它在提高工作效率、实现复杂任务自动化方面的巨大潜力。通过学习 Shell 语言，掌握了变量、运算符、条件判断、流程控制等基础语法，这些语法是构建 Shell 脚本的基石，能够编写简单的命令序列，实现基本的任务自动化。

2025-05-08 20:00:37 1020

原创 MapReduce的基本原理分析

1.MR的计算流程计算1T数据中每个单词出现的次数–>wordcount。

2025-05-07 20:40:21 799

原创 Zookeeper CAP原则

在大型网站应用中，数据规模总是快速扩张的，因此可伸缩性即分区容忍性必不可少，规模变大以后，机器数量也会变得庞大，这是网络和服务器故障会频繁出现，要想保证应用可用，就必须保证分布式处理系统的高可用性。如果要求两个操作之间要完整的进行，因为涉及到通信，肯定存在某一个时刻只完成一部分的业务操作，在通信完成的这一段时间内，数据就是不一致性的。如果要求对数据进行分区了，就说明了必须节点之间必须进行通信，涉及到通信，就无法确保在有限的时间内完成指定的任务。关注的是在在一个事务内，对数据的一些约束。

2024-10-28 17:16:57 752

原创 Hbas 三层索引

HBase以前内部维护了两张特殊的表, -ROOT-，.META表，用来查询各种表的Hregion位置,这两张特殊的表也会像Hbase中的其他三个表一样切分成多个Hregion,-ROOT-表比.META.更特殊一些，永远不会被切分超过一个Hregion 这样保证了只需要三次跳转就可以定位到任意的HRgion。

2024-10-23 22:31:54 555

原创 Spark通用执行流程

Spark执行流程

2024-10-21 23:15:46 534

spark-3.3.2-bin-hadoop3.tgz

Apache Spark 是专门为大规模数据处理而设计的快速通用的计算引擎。 Spark 诞生自加州大学伯克利分校的 AMP （AMP：Algorithms，Machines，and People）实验室，是一种类似 Hadoop MapReduce 的通用并行计算框架，它拥有 Hadoop MapReduce 所具有的优点，但不同于 MapReduce 的是 Job 的中间输出结果可以缓存在内存中，从而不再需要读写 HDFS ，减少磁盘数据交互，因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的算法。 Spark 也被称为基于内存的分布式计算框架.

2024-10-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人