sheansavage-CSDN博客

原创 Hive基本原理与数据开发

hive是基于hadoop 的一个数据仓库工具，用于进行数据提取、转化、加载、这是一种可以存储，查询和分析存储在hadoop中的大规模数据机制。hive数据仓库工具能够将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能够SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。创建数据库创建表...

2024-09-20 04:04:06 1234

原创 Zookeeper基本原理

Zookeeper是一个开源的分布式协调服务器框架，由Apache软件基金会开发，专为分布式系统设计。它主要用于在分布式环境中管理和协调多个节点之间的配置信息、状态数据和元数据。Zookeeper采用了观察者模式的设计理念，其核心职责是存储和管理集群中共享的数据，并为各个节点提供一致的数据视图。在Zookeeper中，客户端（如分布式系统的各个节点）可以注册为“观察者”当这些共享数据发送变化时，Zookeeper会及时通知所有已经注册的观察者，从而使她们能够作出相应的反应或调整。

2024-09-07 08:26:25 918

原创 Hadoop: Mapreduce了解

Hadoop MapReduce是一个软件框架，用于轻松编写应用程序，这些应用程序以可靠、容错的方式在大型集群（数千个节点）的商用硬件上并行大量数据（数TB数据集）。MapReduce作业通常将输入数据集分割成独立的块，这些块由映射任务以完全并行的方式进行处理。该框架对映射的输出进行排序，然后将其输入到Reduce任务中。通常，作业的输入和输出都存储在文件系统中。该框架负责安排任务，监控它们并重新执行失败的任务。

2024-08-27 06:39:08 1453

原创 Hadoop YARN：现代大数据集群资源管理与作业调度

介绍大数据时代背景下，如何有效管理集群资源和调度作业的重要性，引入 Hadoop YARN 作为解决方案，并说明本文将深入探讨 YARN 的原理、架构和应用。

2024-08-10 02:40:24 1298

原创 Docker：基础概念、架构与网络模式详解

Docker是一个用于开发,交付和运行应用程序的开放平台.docker使您能够将应用程序域基础框架分开,以便你可以快速开发交付软件.使用docker,你可以管理你的基础架构以管理应用程序相同的方式.通过利用docker用于交付,测试和部署代码的方法,你可以显著减少编写代码和生产环境中运行代码之间的延迟.

2024-07-12 16:20:23 1685 1