大数据组件架构
文章平均质量分 95
大数据组件架构
行走的数据智能
数智侠,计算机小硕,目前通讯行业从事大数据研发工作。专注于大数据平台、日志系统、数据仓库、数据中台、实时数仓、企业数字化转型等数据技术领域。公众号分享大量干货,包括数据中台/数字化转型方案和案例、大数据架构、数据治理、数据处理优化技巧等。有数据交流社群。
展开
-
2021年大数据面试宝典完整版(含答案解析)
版本 更新时间 更新内容 v1.0 2020-07-01 新建 v1.1 2020-07-18 朋友面试大数据工程师提供的关于架构及数仓方面的题目 v1.2 2020-08-08 朋友面试数据专家提供的数据驱动,spark及flink方面面试题 v1.3 2020-08-22 朋友面试数据开发提供的关于hive及数仓方面的题目 v1.4 2020-09-06 老徐提供面试题(数仓方向)及朋友提供数据开...转载 2021-06-09 02:22:46 · 7900 阅读 · 1 评论 -
Spark大数据处理框架入门-包括生态系统、运行流程以及部署方式
Spark 大数据处理框架简介Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架。Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而...转载 2019-08-28 00:24:58 · 636 阅读 · 0 评论 -
Spark 框架核心组件,以及Spark和Hadoop生态关系
Spark框架是一个快速且API丰富的内存计算框架。Spark 采用Scala语言编写。相对于第一代的大数据生态系统Hadoop中的MapReduce,Spark 无论是在性能还是在方案的统一性方面,都有着极大的优势。Spark框架包含了多个紧密集成的组件,如下图所示。1. Spark Core位于底层的是Spark Core,其实现了Spark的作业调度、内存管理、容...转载 2019-08-28 00:45:32 · 1698 阅读 · 0 评论