Spark快速大数据分析——读书笔记

最新推荐文章于 2024-07-31 13:16:03 发布

BBlue-Sky

最新推荐文章于 2024-07-31 13:16:03 发布

阅读量4.9k

点赞数

分类专栏：云计算 spark 文章标签： spark 大数据读书笔记

本文链接：https://blog.csdn.net/qq_33813365/article/details/77417268

版权

本文是《Spark快速大数据分析》的读书笔记，介绍了Spark的起源、发展及核心优势，包括其作为MapReduce的继承者的三大优点。文章详细讲解了Spark的组件，如Spark Core、Spark SQL、Spark Streaming、MLlib和GraphX，强调了它们在大数据处理中的作用，并阐述了Spark如何作为一个统一的软件栈，简化了数据分析和流处理。此外，还概述了Spark的RDD编程模型，包括RDD的基础、创建与操作，以及惰性求值策略。

摘要由CSDN通过智能技术生成

——8.16开始整理
Spark快速大数据分析

推荐序：
一套大数据解决方案通常包含多个组件，从存储、计算和网络硬件层，到数据处理引擎，再到利用改良的统计和计算算法、数据可视化来获得商业洞见的分析层，这其中数据处理引擎起到了十分重要的作用，毫不夸张的说数据处理引擎至于大数据就相当于CPU之于计算机

spark起源：
2009年加州大学伯克利分校AMPlab 创立spark大数据处理和计算框架。不同于传统数据处理框架，spark基于内存的基本类型，为一些应用程序带来了100倍的性能提升。spark允许允许应用将数据加载到集群内存中反复查询，非擦汗那个适合于大数据处理和机器学习

spark发展：
spark已超越spark核心，发展到了spark streaming、sql、MLlib、GraphX、sparkR等模块，企业、交通、医疗、零售，推进商业洞见，加速决策;
作为MapReduce的继承者，spark主要有三大优点：1.spark非常好用，由于高级API剥离了对集群本身的关注，只关注任务实现的逻辑。2.spark很快，支持交互使用和复杂算法。3.spark是通用引擎，可以用它来完成各种各样的运算，包括SQL查询、文本处理、机器学习

第一章：spark数据分析导论
1.1 spark是什么
快速通用集群计算平台

spark扩展了mapreduce计算模型，高效的支持更多的计算模式，包括交互式查询和流处理（在处理大规模数据集时，速度非常重要，速度快就意味着我们可以进行交互式的数据操作），能够在内存中进行计算（不过就算必须在磁盘中进行复杂计算，s