- 博客(7)
- 收藏
- 关注
原创 Hive基本原理与数据开发
hive是基于hadoop 的一个数据仓库工具,用于进行数据提取、转化、加载、这是一种可以存储,查询和分析存储在hadoop中的大规模数据机制。hive数据仓库工具能够将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能够SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。创建数据库创建表...
2024-09-20 04:04:06
1234
原创 Zookeeper基本原理
Zookeeper是一个开源的分布式协调服务器框架,由Apache软件基金会开发,专为分布式系统设计。它主要用于在分布式环境中管理和协调多个节点之间的配置信息、状态数据和元数据。Zookeeper采用了观察者模式的设计理念,其核心职责是存储和管理集群中共享的数据,并为各个节点提供一致的数据视图。在Zookeeper中,客户端(如分布式系统的各个节点)可以注册为“观察者”当这些共享数据发送变化时,Zookeeper会及时通知所有已经注册的观察者,从而使她们能够作出相应的反应或调整。
2024-09-07 08:26:25
918
原创 Hadoop: Mapreduce了解
Hadoop MapReduce是一个软件框架,用于轻松编写应用程序,这些应用程序以可靠、容错的方式在大型集群(数千个节点)的商用硬件上并行大量数据(数TB数据集)。MapReduce作业通常将输入数据集分割成独立的块,这些块由映射任务以完全并行的方式进行处理。该框架对映射的输出进行排序,然后将其输入到Reduce任务中。通常,作业的输入和输出都存储在文件系统中。该框架负责安排任务,监控它们并重新执行失败的任务。
2024-08-27 06:39:08
1453
原创 Hadoop YARN:现代大数据集群资源管理与作业调度
介绍大数据时代背景下,如何有效管理集群资源和调度作业的重要性,引入 Hadoop YARN 作为解决方案,并说明本文将深入探讨 YARN 的原理、架构和应用。
2024-08-10 02:40:24
1298
原创 Docker:基础概念、架构与网络模式详解
Docker是一个用于开发,交付和运行应用程序的开放平台.docker使您能够将应用程序域基础框架分开,以便你可以快速开发交付软件.使用docker,你可以管理你的基础架构以管理应用程序相同的方式.通过利用docker用于交付,测试和部署代码的方法,你可以显著减少编写代码和生产环境中运行代码之间的延迟.
2024-07-12 16:20:23
1685
1
原创 Hdfs的机架感知与副本放置策略
Hdfs的机架感知和副本放置策略是其设计的关键组成部分,有效地提高了数据的可靠性,可用性和性能,使其成为处理大规模数据的理想选择.
2024-05-07 09:48:41
2538
1
原创 冗余磁盘阵列(RAID)与Hadoop分布式文件系统(HDFS)
介绍数据存储对于现代计算的重要性,并指出在不同的需求下,冗余磁盘阵列(RAID)和Hadoop分布式文件系统(HDFS)作为两种不同的数据存储技术各自的优势。
2024-04-25 13:07:45
1251
5
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人