1、RDD表示分布在多个计算节点上的可以并行操作的元素集合,是spark主要的变成抽象。
Spark Streaming 是 Spark 提供的对实时数据进行流式计算的组件
Spark是一个用于集群计算的通用计算框架,因此被应用于各种各样的应用程序
2、从上层来看,每个saprk应用都有一个驱动器程序(driver programmer)来发起集群上的各种并行操作。
驱动器程序通过一个SparkContext对象来访问Spark。这个对象代表对计算集群的一个连接。在shell启动时已经自动创建了一个SparkContext对象。
3、一旦有了SparkContext,你就可以用它来创建RDD。
要执行这些操作,启动器程序一般要管理多个执行器(executor)节点。
4、一旦完成了应用于Spark的链接,接下来就是需要在你的程序中导入Spark包并创建SparkContext。可以先通过SparkConf对象来配置你的应用,然后基于这个SparkConf创建一个SparkContext对象。
5、创建SparkConf的基本方法,传递两个参数:
1、集群URL:告诉Spark如何连接到集群上。
2、应用名:当连接到一个集群式,这个值可以帮助你在集群管理器的用户界面中找到你的应用。