正如连接到数据库需要定义连接字符串并使用session一样,要连接到Spark需要使用SparkContext或SparkSession,它们告诉应用程序应该去哪里,以及如何连接Spark Cluster。
SparkContext is an entry point to Spark programming with RDD and to connect to Spark Cluster, Since Spark 2.0 SparkSession has been introduced and became an entry point to start programming with DataFrame and Dataset.
因此SparkContext是早期版本中的entry point,Spark在新版本中引入了SparkSession。SparkSession包含了SparkContext的功能,并增加了对DataFrames和Datasets的支持(DataFrames和Datasets也是在Spark 2.0中引入的)。因此如果要使用DataFrames和Datasets,我们必须使用SparkSession;如果不需要用DataFrames和Datasets,则SparkSession和SparkContext都可以。
下面我们来看两个实例.
a, 使用SparkSession
首先找到Spark安装目录并进入shell:
cd /home/markey/Apps/spark-2.4.4-bin-hadoop2.7/bin
./spark-shell
进入了scala shell之后,执行:
scala>val hxdDF = spark.read.format(“csv”).option(“se