Spark学习笔记二(SparkSessions)

本文介绍了Spark 2.0中SparkSession作为编程入口点的作用,它集成了SparkContext的功能并支持DataFrame和Dataset。通过示例展示了如何使用SparkSession读取CSV文件并进行数据操作,同时也提到了SparkContext用于创建RDD的情况。文章还探讨了shell中自动创建的SparkSession实例及其默认配置。
摘要由CSDN通过智能技术生成

正如连接到数据库需要定义连接字符串并使用session一样,要连接到Spark需要使用SparkContext或SparkSession,它们告诉应用程序应该去哪里,以及如何连接Spark Cluster。
SparkContext is an entry point to Spark programming with RDD and to connect to Spark Cluster, Since Spark 2.0 SparkSession has been introduced and became an entry point to start programming with DataFrame and Dataset.
因此SparkContext是早期版本中的entry point,Spark在新版本中引入了SparkSession。SparkSession包含了SparkContext的功能,并增加了对DataFrames和Datasets的支持(DataFrames和Datasets也是在Spark 2.0中引入的)。因此如果要使用DataFrames和Datasets,我们必须使用SparkSession;如果不需要用DataFrames和Datasets,则SparkSession和SparkContext都可以。

下面我们来看两个实例.
a, 使用SparkSession
首先找到Spark安装目录并进入shell:

cd /home/markey/Apps/spark-2.4.4-bin-hadoop2.7/bin
./spark-shell

进入了scala shell之后,执行:

scala>val hxdDF = spark.read.format(“csv”).option(“se

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值