Spark学习笔记--Spark基础知识

1、RDD表示分布在多个计算节点上的可以并行操作的元素集合,是spark主要的变成抽象。
Spark Streaming 是 Spark 提供的对实时数据进行流式计算的组件
Spark是一个用于集群计算的通用计算框架,因此被应用于各种各样的应用程序

2、从上层来看,每个saprk应用都有一个驱动器程序(driver programmer)来发起集群上的各种并行操作。
驱动器程序通过一个SparkContext对象来访问Spark。这个对象代表对计算集群的一个连接。在shell启动时已经自动创建了一个SparkContext对象。

3、一旦有了SparkContext,你就可以用它来创建RDD。
要执行这些操作,启动器程序一般要管理多个执行器(executor)节点。

4、一旦完成了应用于Spark的链接,接下来就是需要在你的程序中导入Spark包并创建SparkContext。可以先通过SparkConf对象来配置你的应用,然后基于这个SparkConf创建一个SparkContext对象。

5、创建SparkConf的基本方法,传递两个参数:
          1、集群URL:告诉Spark如何连接到集群上。
          2、应用名:当连接到一个集群式,这个值可以帮助你在集群管理器的用户界面中找到你的应用。

    
  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值