Spark
- Spark是一个框架,可以采用并行处理的方式高速应对海量数据,是一种健壮的机制
- 底层采用RDD(弹性分布式数据集),在执行处理期间,数据结构具有重建任意时点数据流的能力
- RDD会使用最后一个时点的数据流创建一个新的RDD,出现错误也拥有重构的能力
- 分布式框架,基于主节点和工作结点的设置来运行,代码写在Spark驱动程序上,然后共享到实际留存数据的各个工作结点,他们将实际执行代码
Spark Core
- Spark Core 是 Spark 最基础的组成部分,使得驱动并行和分布式数据处理的内存中计算成为可能
- Spark Core 负责任务管理、I/O操作、容错以及内存管理等
Spark组件
- Spark SQL:应对结构化数据处理,可看作一个分布式SQL查询引擎
- Spark Streaming:以一种可伸缩且可容错的方式处理实时的流式数据,使用小批量处理方式
- Spark MLlib:用于以分布式构建基于大数据的机器学习模型,大部分算法实现用于分类、回归分析、聚类分析、推荐系统和自然语言处理
- Spark Graphx:用于图形分析领域、图形并行化执行方面
环境配置
- Anaconda(python3)
- Java8
- Spark 3.1(Windows 需要winutis.exe)
配完忘了
随便找的,不确定可行,建议自己找