Spark学习笔记二(SparkSessions)

最新推荐文章于 2024-02-26 16:06:55 发布

OnlyQi

最新推荐文章于 2024-02-26 16:06:55 发布

阅读量1.1k

点赞数

分类专栏： Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/OnlyQi/article/details/108935746

版权

本文介绍了Spark 2.0中SparkSession作为编程入口点的作用，它集成了SparkContext的功能并支持DataFrame和Dataset。通过示例展示了如何使用SparkSession读取CSV文件并进行数据操作，同时也提到了SparkContext用于创建RDD的情况。文章还探讨了shell中自动创建的SparkSession实例及其默认配置。

摘要由CSDN通过智能技术生成

正如连接到数据库需要定义连接字符串并使用session一样，要连接到Spark需要使用SparkContext或SparkSession，它们告诉应用程序应该去哪里，以及如何连接Spark Cluster。
SparkContext is an entry point to Spark programming with RDD and to connect to Spark Cluster, Since Spark 2.0 SparkSession has been introduced and became an entry point to start programming with DataFrame and Dataset.
因此SparkContext是早期版本中的entry point，Spark在新版本中引入了SparkSession。SparkSession包含了SparkContext的功能，并增加了对DataFrames和Datasets的支持(DataFrames和Datasets也是在Spark 2.0中引入的)。因此如果要使用DataFrames和Datasets，我们必须使用SparkSession；如果不需要用DataFrames和Datasets，则SparkSession和SparkContext都可以。

下面我们来看两个实例.
a, 使用SparkSession
首先找到Spark安装目录并进入shell：

cd /home/markey/Apps/spark-2.4.4-bin-hadoop2.7/bin
./spark-shell

进入了scala shell之后，执行：

scala>val hxdDF = spark.read.format(“csv”).option(“se

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

OnlyQi CSDN认证博客专家 CSDN认证企业博客

码龄14年

283: 原创

3万+: 周排名

194万+: 总排名

117万+: 访问

: 等级

1万+: 积分

69: 粉丝

94: 获赞

48: 评论

206: 收藏

私信

关注

热门文章

分类专栏

最新评论

多线程太可怕了
m0_37786387: 外包公司，大量裁员，慎入
多线程太可怕了
ChengSukai: 你解决了嘛?
Hierarchical Queries in Oracle
技术小白白~: Oracle理解很深入，看了大佬文章收获满满，平时可以多多交流，大佬可以给个WX吗？
Pandas中的groupby方法
系'辞: 【个人笔记】由作者得：dataframe.groupby().会根据所分类的值种类，分割为对应个数的dataframe，并且，仅返回dataframe格式。而，要想进一步使用，就得利用函数(“.函数名()”)、切片(“.[属性名]”)等方式处理
Python的Module和Package
Tisfy: 深得人心，正如古人云：别来几春未还家，玉窗五见樱桃花。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。