自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 Hive基本原理与数据开发

hive是基于hadoop 的一个数据仓库工具,用于进行数据提取、转化、加载、这是一种可以存储,查询和分析存储在hadoop中的大规模数据机制。hive数据仓库工具能够将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能够SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。创建数据库创建表...

2024-09-20 04:04:06 1234

原创 Zookeeper基本原理

Zookeeper是一个开源的分布式协调服务器框架,由Apache软件基金会开发,专为分布式系统设计。它主要用于在分布式环境中管理和协调多个节点之间的配置信息、状态数据和元数据。Zookeeper采用了观察者模式的设计理念,其核心职责是存储和管理集群中共享的数据,并为各个节点提供一致的数据视图。在Zookeeper中,客户端(如分布式系统的各个节点)可以注册为“观察者”当这些共享数据发送变化时,Zookeeper会及时通知所有已经注册的观察者,从而使她们能够作出相应的反应或调整。

2024-09-07 08:26:25 918

原创 Hadoop: Mapreduce了解

Hadoop MapReduce是一个软件框架,用于轻松编写应用程序,这些应用程序以可靠、容错的方式在大型集群(数千个节点)的商用硬件上并行大量数据(数TB数据集)。MapReduce作业通常将输入数据集分割成独立的块,这些块由映射任务以完全并行的方式进行处理。该框架对映射的输出进行排序,然后将其输入到Reduce任务中。通常,作业的输入和输出都存储在文件系统中。该框架负责安排任务,监控它们并重新执行失败的任务。

2024-08-27 06:39:08 1453

原创 Hadoop YARN:现代大数据集群资源管理与作业调度

介绍大数据时代背景下,如何有效管理集群资源和调度作业的重要性,引入 Hadoop YARN 作为解决方案,并说明本文将深入探讨 YARN 的原理、架构和应用。

2024-08-10 02:40:24 1298

原创 Docker:基础概念、架构与网络模式详解

Docker是一个用于开发,交付和运行应用程序的开放平台.docker使您能够将应用程序域基础框架分开,以便你可以快速开发交付软件.使用docker,你可以管理你的基础架构以管理应用程序相同的方式.通过利用docker用于交付,测试和部署代码的方法,你可以显著减少编写代码和生产环境中运行代码之间的延迟.

2024-07-12 16:20:23 1685 1

原创 Hdfs的机架感知与副本放置策略

Hdfs的机架感知和副本放置策略是其设计的关键组成部分,有效地提高了数据的可靠性,可用性和性能,使其成为处理大规模数据的理想选择.

2024-05-07 09:48:41 2538 1

原创 冗余磁盘阵列(RAID)与Hadoop分布式文件系统(HDFS)

介绍数据存储对于现代计算的重要性,并指出在不同的需求下,冗余磁盘阵列(RAID)和Hadoop分布式文件系统(HDFS)作为两种不同的数据存储技术各自的优势。

2024-04-25 13:07:45 1251 5

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除