pyspark是一个API,通过这个API可以使用python来操作spark。参考文献:http://spark.apache.org/docs/latest/api/python/
一 、spark基础,sparkcontext,sparkconf
在spark中任何工作都是从SparkContext开始,包括我们平时用的sql查询。所以开始之前必须先建立一个sparkcontext。而sparkcontext的建立需要一个配置文件SparkConf ,SparkConf本质是一个对象,包含了sparkcontext的各种配置参数。一般的配置如下
代码块
Python
from pyspark import SparkConf, SparkContext
conf = SparkConf()
.setMaster("spark://127.0.0.1:7077") #也可以设为setMaster(yarn-client)
.setAppName("My app") # 名字可以自己取
.set("spark.executor.memory", "1g") #可以省略,用默认值
sc = SparkContext(conf = conf) #创建一个sparkcontext
setMaster(yarn-client)和setAppName("zepplin-finzr")都是SparkConf()的方法。一个账号只能有一个sparkcontext,如果已经存在一个sparkcontext,再继续建立sparkcontext则会报错:
代码块
Python
ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(...)
此时有两个办法:1.关闭之前的sparkcontext,用新的sparkcontext。 2. 用当前激活状态的sparkcontext
-
如果用第一个方法,则可以用
代码块
Python
try:
sc.stop()
except:
pass
其中在pyspark中,如果有
代码块
Python
sc=sparkcontext(....)
则sc是sparkcontext的方法常量。如果没有,sc和sparkcontext也完全等价。
2. 如果用第二个方法
一般来讲,在zepplin中进行sql 查询时也是需要查询建立sparkcontext的,不过公司已经把sparkcontext都配置好,当账号登陆的时候,已经建立了
代码块
Python
SparkConf() .setMaster(yarn-client)
.setAppName("zepplin-finzr")
的sparkcontext,并处于激活状态。查看当前获得Sparkcontext的方法是
代码块
Python
SparkContext._active_spark_context 或者
sc._active_spark_context
所以,在公司的zepplin中不需要自己建立SparkContext,因为如果要建立新的SparkContext,则必须要杀掉之前的SparkContext。这会导致其他的zepplin程序不能运行,报错
代码块
Python
rpcenv has been stopped
所以在公司中直接用现有的SparkContext即可。
二、用spark进行查询
spark.sql是在spark中用sql进行查询的组件。查询结果返回到一个dataframe格式的文件中。应该注意这里的dataframe和pandas中的dataframe不是一个格式。
通过spark.sql进行数据查询有两种方法:1.调用hive的sql框架HiveContext进行;2.使用spark的sql框架spark.sql进行。下面分别介绍两种方法:
1.调用hive的sql框架HiveContext
方法如下
代码块
Python
from pyspark.sql import HiveContext
sqlContext = HiveContext(sc)
my_dataframe = sqlContext.sql("Select count(1) from logs.fmnews_dim_where")
my_dataframe.show()
2.使用spark的sql框架spark.sql
方法如下:
代码块
Python
import pyspark.sql
aa = spark.sql("Select count(1) from logs.fmnews_dim_where")
两种方法都是得到spark.sql.dataframe的数据格式。