Pyspark基础

Spark

  • Spark是一个框架,可以采用并行处理的方式高速应对海量数据,是一种健壮的机制
  • 底层采用RDD(弹性分布式数据集),在执行处理期间,数据结构具有重建任意时点数据流的能力
  • RDD会使用最后一个时点的数据流创建一个新的RDD,出现错误也拥有重构的能力
  • 分布式框架,基于主节点和工作结点的设置来运行,代码写在Spark驱动程序上,然后共享到实际留存数据的各个工作结点,他们将实际执行代码

Spark Core

  • Spark Core 是 Spark 最基础的组成部分,使得驱动并行和分布式数据处理的内存中计算成为可能
  • Spark Core 负责任务管理、I/O操作、容错以及内存管理等

Spark组件

  • Spark SQL:应对结构化数据处理,可看作一个分布式SQL查询引擎
  • Spark Streaming:以一种可伸缩且可容错的方式处理实时的流式数据,使用小批量处理方式
  • Spark MLlib:用于以分布式构建基于大数据的机器学习模型,大部分算法实现用于分类、回归分析、聚类分析、推荐系统和自然语言处理
  • Spark Graphx:用于图形分析领域、图形并行化执行方面

环境配置

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值