在zepplin中使用pyspark进行数据查询和数据处理

pyspark是一个API,通过这个API可以使用python来操作spark。参考文献:http://spark.apache.org/docs/latest/api/python/

一 、spark基础,sparkcontext,sparkconf

在spark中任何工作都是从SparkContext开始,包括我们平时用的sql查询。所以开始之前必须先建立一个sparkcontext。而sparkcontext的建立需要一个配置文件SparkConf ,SparkConf本质是一个对象,包含了sparkcontext的各种配置参数。一般的配置如下

代码块

Python

from pyspark import SparkConf, SparkContext 
conf = SparkConf() 
         .setMaster("spark://127.0.0.1:7077")    #也可以设为setMaster(yarn-client)
         .setAppName("My app")   # 名字可以自己取
         .set("spark.executor.memory", "1g")  #可以省略,用默认值
sc = SparkContext(conf = conf)   #创建一个sparkcontext

setMaster(yarn-client)和setAppName("zepplin-finzr")都是SparkConf()的方法。一个账号只能有一个sparkcontext,如果已经存在一个sparkcontext,再继续建立sparkcontext则会报错:

代码块

Python

ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(...)

此时有两个办法:1.关闭之前的sparkcontext,用新的sparkcontext。 2. 用当前激活状态的sparkcontext

  1. 如果用第一个方法,则可以用

代码块

Python

try:
  sc.stop()
except:
  pass

其中在pyspark中,如果有

代码块

Python

sc=sparkcontext(....)

则sc是sparkcontext的方法常量。如果没有,sc和sparkcontext也完全等价。

2. 如果用第二个方法

一般来讲,在zepplin中进行sql 查询时也是需要查询建立sparkcontext的,不过公司已经把sparkcontext都配置好,当账号登陆的时候,已经建立了

代码块

Python

SparkConf() .setMaster(yarn-client)
.setAppName("zepplin-finzr")

的sparkcontext,并处于激活状态。查看当前获得Sparkcontext的方法是

代码块

Python

SparkContext._active_spark_context  或者
sc._active_spark_context

所以,在公司的zepplin中不需要自己建立SparkContext,因为如果要建立新的SparkContext,则必须要杀掉之前的SparkContext。这会导致其他的zepplin程序不能运行,报错

代码块

Python

rpcenv has been stopped

所以在公司中直接用现有的SparkContext即可。

 

二、用spark进行查询

spark.sql是在spark中用sql进行查询的组件。查询结果返回到一个dataframe格式的文件中。应该注意这里的dataframe和pandas中的dataframe不是一个格式。

通过spark.sql进行数据查询有两种方法:1.调用hive的sql框架HiveContext进行;2.使用spark的sql框架spark.sql进行。下面分别介绍两种方法:

1.调用hive的sql框架HiveContext

方法如下

代码块

Python

from pyspark.sql import HiveContext 
sqlContext = HiveContext(sc)   
my_dataframe = sqlContext.sql("Select count(1) from logs.fmnews_dim_where") 
my_dataframe.show() 

2.使用spark的sql框架spark.sql

方法如下:

代码块

Python

import pyspark.sql
aa = spark.sql("Select count(1) from logs.fmnews_dim_where")

两种方法都是得到spark.sql.dataframe的数据格式。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值