——8.16开始整理
Spark快速大数据分析
推荐序:
一套大数据解决方案通常包含多个组件,从存储、计算和网络硬件层,到数据处理引擎,再到利用改良的统计和计算算法、数据可视化来获得商业洞见的分析层,这其中数据处理引擎起到了十分重要的作用,毫不夸张的说数据处理引擎至于大数据就相当于CPU之于计算机
spark起源:
2009年加州大学伯克利分校AMPlab 创立spark大数据处理和计算框架。不同于传统数据处理框架,spark基于内存的基本类型,为一些应用程序带来了100倍的性能提升。spark允许允许应用将数据加载到集群内存中反复查询,非擦汗那个适合于大数据处理和机器学习
spark发展:
spark已超越spark核心,发展到了spark streaming、sql、MLlib、GraphX、sparkR等模块,企业、交通、医疗、零售,推进商业洞见,加速决策;
作为MapReduce的继承者,spark主要有三大优点:1.spark非常好用,由于高级API剥离了对集群本身的关注,只关注任务实现的逻辑。2.spark很快,支持交互使用和复杂算法。3.spark是通用引擎,可以用它来完成各种各样的运算,包括SQL查询、文本处理、机器学习
第一章:spark数据分析导论
1.1 spark是什么
快速通用集群计算平台
spark扩展了mapreduce计算模型,高效的支持更多的计算模式,包括交互式查询和流处理(在处理大规模数据集时,速度非常重要,速度快就意味着我们可以进行交互式的数据操作),能够在内存中进行计算(不过就算必须在磁盘中进行复杂计算,s