在zepplin中使用pyspark进行数据查询和数据处理

最新推荐文章于 2022-09-01 22:27:56 发布

kangshuangzhu

最新推荐文章于 2022-09-01 22:27:56 发布

阅读量1k

点赞数

分类专栏： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kangshuangzhu/article/details/100736733

版权

hadoop 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

pyspark是一个API，通过这个API可以使用python来操作spark。参考文献：http://spark.apache.org/docs/latest/api/python/

一、spark基础，sparkcontext，sparkconf

在spark中任何工作都是从SparkContext开始，包括我们平时用的sql查询。所以开始之前必须先建立一个sparkcontext。而sparkcontext的建立需要一个配置文件SparkConf ，SparkConf本质是一个对象，包含了sparkcontext的各种配置参数。一般的配置如下

代码块

Python

from pyspark import SparkConf, SparkContext

conf = SparkConf()

         .setMaster("spark://127.0.0.1:7077")    #也可以设为setMaster(yarn-client)

         .setAppName("My app")   # 名字可以自己取

         .set("spark.executor.memory", "1g")  #可以省略，用默认值

sc = SparkContext(conf = conf)   #创建一个sparkcontext

setMaster(yarn-client)和setAppName("zepplin-finzr")都是SparkConf()的方法。一个账号只能有一个sparkcontext，如果已经存在一个sparkcontext，再继续建立sparkcontext则会报错：

代码块

Python

ValueError: Cannot run multiple SparkContexts at once; existing SparkContext（...）

此时有两个办法：1.关闭之前的sparkcontext，用新的sparkcontext。 2. 用当前激活状态的sparkcontext

如果用第一个方法，则可以用

代码块

Python

try:

  sc.stop()

except:

  pass

其中在pyspark中，如果有

代码块

Python

sc=sparkcontext(....)

则sc是sparkcontext的方法常量。如果没有，sc和sparkcontext也完全等价。

2. 如果用第二个方法

一般来讲，在zepplin中进行sql 查询时也是需要查询建立sparkcontext的，不过公司已经把sparkcontext都配置好，当账号登陆的时候，已经建立了

代码块

Python

SparkConf() .setMaster(yarn-client)

.setAppName("zepplin-finzr")

的sparkcontext，并处于激活状态。查看当前获得Sparkcontext的方法是

代码块

Python

SparkContext._active_spark_context  或者

sc._active_spark_context

所以，在公司的zepplin中不需要自己建立SparkContext，因为如果要建立新的SparkContext，则必须要杀掉之前的SparkContext。这会导致其他的zepplin程序不能运行，报错

代码块

Python

rpcenv has been stopped

所以在公司中直接用现有的SparkContext即可。

二、用spark进行查询

spark.sql是在spark中用sql进行查询的组件。查询结果返回到一个dataframe格式的文件中。应该注意这里的dataframe和pandas中的dataframe不是一个格式。

通过spark.sql进行数据查询有两种方法：1.调用hive的sql框架HiveContext进行；2.使用spark的sql框架spark.sql进行。下面分别介绍两种方法：

1.调用hive的sql框架HiveContext

方法如下

代码块

Python

from pyspark.sql import HiveContext

sqlContext = HiveContext(sc)

my_dataframe = sqlContext.sql("Select count(1) from logs.fmnews_dim_where")

my_dataframe.show()

2.使用spark的sql框架spark.sql

方法如下：

代码块

Python

import pyspark.sql

aa = spark.sql("Select count(1) from logs.fmnews_dim_where")

两种方法都是得到spark.sql.dataframe的数据格式。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
在zepplin中使用pyspark进行数据查询和数据处理

pyspark是一个API，通过这个API可以使用python来操作spark。参考文献：http://spark.apache.org/docs/latest/api/python/一、spark基础，sparkcontext，sparkconf在spark中任何工作都是从SparkContext开始，包括我们平时用的sql查询。所以开始之前必须先建立一个sparkcontext。而s...
复制链接

扫一扫

专栏目录

kangshuangzhu CSDN认证博客专家 CSDN认证企业博客

码龄8年

68: 原创

4万+: 周排名

2万+: 总排名

16万+: 访问

: 等级

1646: 积分

41: 粉丝

176: 获赞

19: 评论

639: 收藏

私信

关注

热门文章

分类专栏

kafka 1篇
spark
vim 1篇
ide 1篇
操作系统 1篇
java 5篇
hadoop 2篇
git 1篇
数据挖掘 14篇
C++ 20篇
linux 4篇

最新评论

c++ 中的符号* 和 &
m0_69609320: 讲的太好了，真棒
python卸载升级numpy提示“访问拒绝”解决方法
m0_74892728: 这应该怎么办
python卸载升级numpy提示“访问拒绝”解决方法
m0_74892728: 我加上之后他说 no such option :—user
用cmake工具自定义tensorflow算子
秋水长天186: 口是心非的博主，嘴上说了zero_out，但python脚本里写的却是zeroout，害的本王排查了半天才发现这个错误
tf.feature_column详解
kangshuangzhu: 找到featurecolumn相应的op，然后有一个kernel属性，就是embedding

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。