pyspark开发指南
1、pyspark 本地开发环境搭建
python版本最好与集群环境一致,我这里是 python 3.5.2
参考资料即可
http://blog.csdn.net/funfun0/article/details/77802590
注意:
windows 64位的Java安装在C:\Program Files\下,导致最终的PATH中包含了空格,
需将环境变量中的JAVA_HOME改成C:\progra~1\Java\jdk1.8.0_60 或者 “C:\Program Files”\Java\jdk1.8.0_60。
2、pyspark 任务提交
演示:以日起始里程统计作业为例,环境为研发环境
a、开发:
见StartStopMileage.py
b、提交:
spark任务提交脚本
sh StartStopMileage-dev.sh 20171120
#!/bin/bash
/usr/local/spark/bin/spark-submit \
--master yarn \ #指定资源管理器
--deploy-mode client \ #指定提交模式
--executor-memory 2G \ #指定executor内存大小
--num-executors 10 \ #指定executor个数
--executor-cores 2 \ #指定executor虚拟CPU核数
--driver-memory 2G \ #指定driver内存大小
--queue spark \ #指定资源队列
/home/hadoop/StartStopMileage.py \ #指定运行的python脚本
dev \ #python
$1
c、运行:
如果程序有错误,中间会报异常
d、spark web-ui监控
e、结果
生成hdfs 文件,说明运行成功!
3、交互式命令行
进入spark 安装目录
执行./bin/pyspark
进入pyspark命令行
内置加载了几个对象,不用声明 可直接使用
spark = SparkSession.builder\
.enableHiveSupport()\
.getOrCreate()
sc = spark.sparkContext
sql = spark.sql
sqlContext = spark._wrapped
sqlCtx = sqlContext
演示:读取hdfs 文件
spark.read.parquet("/spark/vehicle/data/realinfo/year=2017/month=11/day=02").show
sc.textFile("/tmp/zyt/StartStopMileage440004").take(1)