大数据技术体系（长期更新）

置顶 Shockang

已于 2022-08-22 00:30:30 修改

阅读量3.2w

点赞数 142

分类专栏：大数据技术体系文章标签：大数据

于 2021-05-25 23:15:51 首次发布

本文链接：https://blog.csdn.net/Shockang/article/details/117266839

版权

大数据技术体系专栏收录该内容

282 篇文章 576 订阅

订阅专栏

序言

2018~2021 年期间，笔者阅读了200+大数据相关的书籍和专栏。

本专栏为笔者，在多年读书笔记的基础上，结合自身的大数据开发心得体会，呕心沥血之作。

同时笔者也根据个人推荐度对引用的文献进行了排行，详情请见参考文献。

来点关注吧，万分感谢！

在这里插入图片描述

本专栏姊妹篇

在这里插入图片描述

100个问题搞定大数据理论体系

100个问题搞定Java虚拟机

100个问题搞定Java并发

目录结构

在这里插入图片描述

HDFS（3.2.2）

MapReduce（3.2.2）

YARN（3.2.2）

在这里插入图片描述

Zookeeper（3.7.0）

在这里插入图片描述

Hive（3.1.2）

在这里插入图片描述

HBase（2.4.4）

在这里插入图片描述

Flume（1.9.0）

在这里插入图片描述

Sqoop（已经停止维护）

在这里插入图片描述

Azkaban（3.30.1）

在这里插入图片描述

Kafka（2.8）

在这里插入图片描述

Flink（1.13.2）

在这里插入图片描述

ELK（6.7.0）

在这里插入图片描述

Maxwell

Maxwell 是什么？

在这里插入图片描述

Presto

一篇文章了解 Presto

在这里插入图片描述

ClickHouse

ClickHouse 是什么？ClickHouse 有哪些特性？

在这里插入图片描述

Kylin

在这里插入图片描述

Kubernetes

在这里插入图片描述

CDH/CDP

在这里插入图片描述

Spark Core（3.3.0-SNAPSHOT）

因为笔者一直在研究 Apache Spark 的源码，故专栏中涉及 Spark 的源码版本都是基于 github 的 master 分支，当前版本号为：3.3.0-SNAPSHOT

Spark RDD 论文详解

Spark RDD 论文详解（一）摘要和介绍

Spark RDD 论文详解（二）RDDs

Spark RDD 论文详解（三）Spark 编程接口

Spark RDD 论文详解（四）表达 RDDs

Spark RDD 论文详解（五）实现

Spark RDD 论文详解（六）评估

Spark RDD 论文详解（七）讨论

Spark RDD 论文详解（八）相关工作和结尾

Spark 3.2.0 版本新特性 push-based shuffle 论文详解

Spark 3.2.0 版本新特性 push-based shuffle 论文详解（一）概要和介绍

Spark 3.2.0 版本新特性 push-based shuffle 论文详解（二）背景和动机

Spark 3.2.0 版本新特性 push-based shuffle 论文详解（三）系统设计

Spark 3.2.0 版本新特性 push-based shuffle 论文详解（四）实现优化

Spark 3.2.0 版本新特性 push-based shuffle 论文详解（五）评估结果

Spark 3.2.0 版本新特性 push-based shuffle 论文详解（六）相关工作

Spark 3.2.0 版本新特性 push-based shuffle 论文详解（七）结论

随笔

Spark SQL（3.3.0-SNAPSHOT）

Spark SQL 内置函数

Spark SQL 内置函数（一）Array Functions（基于 Spark 3.2.0）

Spark SQL 内置函数（二）Map Functions（基于 Spark 3.2.0）

Spark SQL 内置函数（三）Date and Timestamp Functions（基于 Spark 3.2.0）

Spark SQL 内置函数（四）JSON Functions（基于 Spark 3.2.0）

Spark SQL 内置函数（五）Aggregate Functions（基于 Spark 3.2.0）

Spark SQL 内置函数（六）Window Functions（基于 Spark 3.2.0）

Spark SQL functions.scala 源码解析

Spark SQL functions.scala 源码解析（一）Sort functions （基于 Spark 3.3.0）

Spark SQL functions.scala 源码解析（二）Aggregate functions（基于 Spark 3.3.0）

Spark SQL functions.scala 源码解析（三）Window functions （基于 Spark 3.3.0）

Spark SQL functions.scala 源码解析（四）Non-aggregate functions （基于 Spark 3.3.0）

Spark SQL functions.scala 源码解析（五）Math Functions （基于 Spark 3.3.0）

Spark SQL functions.scala 源码解析（六）Misc functions （基于 Spark 3.3.0）

Spark SQL functions.scala 源码解析（七）String functions （基于 Spark 3.3.0）

Spark SQL functions.scala 源码解析（八）DateTime functions （基于 Spark 3.3.0）

Spark SQL functions.scala 源码解析（九）Collection functions （基于 Spark 3.3.0）

Spark SQL functions.scala 源码解析（十）Partition transform functions（基于 Spark 3.3.0）

Spark SQL functions.scala 源码解析（十一）Scala UDF functions（基于 Spark 3.3.0）

Spark SQL functions.scala 源码解析（十二）Java UDF functions（基于 Spark 3.3.0）

Spark SQL 工作流程源码解析

Spark SQL 工作流程源码解析（一）总览（基于 Spark 3.3.0）

Spark SQL 工作流程源码解析（二）parsing 阶段（基于 Spark 3.3.0）

Spark SQL 工作流程源码解析（三）analysis 阶段（基于 Spark 3.3.0）

Spark SQL 工作流程源码解析（四）optimization 阶段（基于 Spark 3.3.0）

Spark SQL 工作流程源码解析（五）planning 阶段（基于 Spark 3.3.0）

随笔

参考文献（按推荐度排序）

在这里插入图片描述

官方文档都是要先阅读的，极客时间几个专栏都还不错，书籍推荐榜前几名强烈推荐！
后几名没什么必要去看，我都是引用了几句话所以加了进来。
博客引用不在推荐榜单排名内
随着专栏更新会不断更新~

Hadoop 3.2.2 官方文档
Spark 3.1.2 官方文档
Kafka 2.8 官方文档
HBase 2.4.4 官方文档
Hive 3.1.2 官方文档
极客时间专栏《Kafka核心技术与实战》胡夕
极客时间专栏《从0开始学大数据》李智慧
极客时间专栏《大规模数据处理实战》蔡元楠
极客时间专栏《Spark核心原理与实战》王磊
《大数据架构详解:从数据获取到深度学习》朱洁，罗华霖编著
《图解 Spark:核心技术与案例实战》郭景瞻编著
《Spark SQL 内核剖析》朱锋、张韶全、黄明著
《Spark大数据商业实战三部曲:内核解密商业案例性能调优第 2 版》王家林,段智华,夏阳编著
《Spark内核设计的艺术:架构设计与实现》耿嘉安著
《Hadoop专家:管理、调优与 Spark YARN HDFS安全》(美)山姆·阿拉帕蒂(SamR. Alapati)著; 赵国贤等译
《Hadoop权威指南（第3版）》（美）怀特(White,T.)著;华东师范大学数据科学与工程学院译
《企业数据湖》(印)汤姆斯・约翰(Tomcy John),(印)潘卡・米斯拉(Pankaj Misra)著；张世武,李想,张浩林译
《Spark内核机制解析及性能调优》王家林等编著
《Hadoop海量数据处理-技术详解与项目实战第2版》范东来著
《大数据技术体系详解:原理、架构与实战》董西成著
《Hadoop大数据技术原理与应用》黑马程序员编著
《Hadoop大数据挖掘从入门到进阶实战:视频教学版》邓杰编著
《Hadoop & Spark大数据开发实战》肖睿、雷刚跃主编
《大数据开发与应用》青岛英谷教育科技股份有限公司,山东工商学院编著
《大数据时代 hadoop 技术及应用分析》韦鹏程,施成湘,蔡银英著
《从 Paxos到 Zookeeper:分布式一致性原理与实践》倪超著
《大数据技术及应用探究》胡沛，韩璞著
《云时代的大数据技术与应用实践》朱利华著
《云计算中的大数据技术与应用》梁凡著
《大数据技术概论》陈明编著
《大数据应用基础》娄岩主编
《Hadoop大数据分析》高水彬,钱亮宏,方志军编著
《大数据资源》朱扬勇主编
《大数据高可用环境搭建与运维》天津滨海迅腾科技集团有限公司编著
MapReduce-Counter使用-快速实现大文件行数的统计

Shockang

关注

142
点赞
踩
712

收藏

觉得还不错? 一键收藏
53
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录