pyspark之创建SparkSession

最新推荐文章于 2024-07-29 14:01:21 发布

大兰子小丸子

最新推荐文章于 2024-07-29 14:01:21 发布

阅读量2.4w

点赞数 6

分类专栏： spark 文章标签： pyspark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_28224453/article/details/84977693

版权

本文介绍了SparkSession的基本概念，它是创建DataFrame并执行SQL操作的入口。在Jupyter Notebook或PyCharm环境中，通过创建SparkSession实例，可以读取和写入Hive数据，并能自定义配置。示例展示了如何从Hive读取数据创建DataFrame，并预览数据。

摘要由CSDN通过智能技术生成

1、SparkSession 介绍

通过SparkSession 可以创建DataFrame, 也可以把DataFrame注册成一个table，基于此执行一系列SQL操作。DataFrame和pandas里的DataFrame类似。

关于什么是DataFrame，后续会出一篇介绍spark基本概念的博客。

2、实验环境

博主是用的 jupyter notebook，新建了一个pyspark的notebook。环境如何搭建这里就不多说了。
当然了，下面的代码也可以在PyCharm里实现。

3、创建一个SparkSession

SparkSQL支持scala、java、python和R。以官网示例python为例：

from pyspark.sql import SparkSession
spark = SparkSession \
    .builder \
    .appName("Python Spark SQL basic example") \
    .config("spark.some.config.option", "some-value") \
    .getOrCreate()

其中：

在pyspark中换行要加入\
.getOrCreate() 指的是如果当前存在一个SparkSession就直接获取，否则新建。
.enableHiveSupport() 使我们可以从读取或写入数据到hive。

我们还可以自定义配置，例如定义spark任务执行时的内存：

<

最低0.47元/天解锁文章

大兰子小丸子

关注

6
点赞
踩
31

收藏

觉得还不错? 一键收藏
5
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

大兰子小丸子 CSDN认证博客专家 CSDN认证企业博客

码龄9年

22: 原创

13万+: 周排名

162万+: 总排名

59万+: 访问

: 等级

2082: 积分

109: 粉丝

151: 获赞

97: 评论

477: 收藏

私信

关注

热门文章

分类专栏

airflow 1篇
HDP平台 8篇
aimms 1篇
matlab 3篇
pyhton 2篇
java 2篇
搜索引擎 1篇
regression 2篇
SVR 1篇
mysql 2篇
elasticsearch 1篇
spark 1篇

最新评论

pyspark之创建SparkSession
地铁博尔特: 楼主，Exception: Java gateway process exited before sending its port number 这是什么原因呢？搜了好多都没解决
python实践系列之（一）安装 python/pip/numpy/matplotlib
qq_41645219: 非常感谢楼主！
学习MySQL的第一步：安装MySQL及数据库可视化工具Navicat
学不进去啊这代码: 还好看到你的评论了！修改密码成功!
如何保存Windows聚焦的锁屏壁纸
tbywt: 这个目录找不到锁屏壁纸啊
Ubuntu上搭建airflow+celery以及配置环境
北风之神c: 写得赞，博主用心了，但主要还是celery太难了。 celery对目录层级文件名称格式要求太高，只适合规划新的项目，对不规则文件夹套用难度高。所以新手使用celery很仔细的建立文件夹名字、文件夹层级、python文件名字，所以网上的celery博客教程虽然很多，但是并不能学会使用，因为要运行起来需要以下6个方面都掌握好，博客文字很难表达清楚或者没有写全面以下6个方面。 celery消费任务不执行或者报错NotRegistered，与很多方面有关系，如果要别人排错，至少要发以下6方面的截图， 1) 整个项目目录结构,celery的目录结构和任务函数位置，有很大影响 2) @task入参 ,用户有没有主动设置装饰器的入参 name,设置了和没设置有很大不同，建议主动设置这个名字对函数名字和所处位置依赖减小 3) celery的配置，task_queues(在3.xx叫 CELERY_QUEUES )和task_routes (在3.xx叫 task_routes) 4) celery的配置 include （在3.xx叫 CELERY_INCLUDE）或者 imports (3.xx CELERY_IMPORTS) 或者 app.autodiscover_tasks的入参 5) cmd命令行启动参数 --queues= 的值 6) 用户在启动cmd命令行时候，用户所在的文件夹。在不规范的文件夹路径下，使用celery难度很高，一般教程都没教。 [项目文件夹目录格式不规范下的celery使用演示](https://github.com/ydf0509/celery_demo) 。此国产分布式函数调度框架 https://function-scheduling-distributed-framework.readthedocs.io/zh_CN/latest/index.html ，从用法调用难度，用户所需代码量，超高并发性能，qps控频精确程度，支持的中间件类型，任务控制方式，稳定程度等19个方面全方位超过celery，任何方面都是有过之而无不及。

大家在看

最新文章

目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。