自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 数仓的数据是什么

在数据仓库(Data Warehouse)建设中,理解数据的各种形态及其来源至关重要。根据数据的形态,我们可以将数据主要分为三类:结构化数据、半结构化数据和非结构化数据。

2024-09-12 19:04:52 80

原创 关于从零到一搭建数仓

从零到一的搭建过程指的是从无到有地构建一个完整的数据仓库系统。这包括定义业务需求、选择技术栈、设计数据模型、开发ETL流程、部署和维护数据仓库等一系列步骤。这一过程通常需要大量的时间和资源投入。

2024-09-12 12:03:01 188

原创 Hadoop生态圈拓展内容(二)

Combiner是在Map阶段之后,Reduce阶段之前,对Map输出的中间数据进行本地合并和压缩,减少数据传输量,提高整体性能。Combiner可以将相同Key的多个Map输出结果进行合并,减少网络传输的数据量,降低Reduce的负载,提高效率。Hadoop的块默认大小是128MB。在Hadoop 1.x和2.x版本中默认为64MB。则是将字节流重新转换成数据的过程,以便在各个节点之间传输时恢复原始数据。是将数据转换为字节流的过程,以便在网络传输或存储时占用更少的空间。

2024-09-11 23:04:58 456

原创 Hadoop生态圈拓展内容(一)

HDFS是一个高容错、高可靠性、高可扩展性、高吞吐率的分布式文件存储系统,负责海量数据的存储。

2024-09-11 23:03:14 610

原创 Hadoop基础

Hadoop是一个分布式计算平台,能够允许使用编程模型在集群上对大型数据集进行分布式处理,主要解决海量数据的存储和海量数据的分析计算 问题。HDFS(分布式文件存储平台):用于存储大规模数据。MapReduce(计算引擎):用于数据的并行处理。YARN(资源调度平台):用于资源管理和任务调度。以上是对Hadoop基础知识的简要介绍。Hadoop作为大数据处理的核心技术之一,其高扩展性、低成本和高效率使其在大数据领域得到了广泛应用。

2024-09-10 12:57:55 419

原创 关于离线数仓岗

数据仓库是一个面向主题的、集成的、稳定的、随时间变化的数据集合,用于支持管理决策。它与传统的数据库系统不同,主要用于分析和查询,而不是事务处理。以上是我对离线数仓岗位所需基础技能的总结,希望对大家有所帮助。

2024-09-10 00:01:44 597

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除