Pyspark的配置与使用

配置

安装java
sudo apt-get update
sudo apt-get install openjdk-8-jdk 
java -version
安装scala
wget https://downloads.lightbend.com/scala/2.13.8/scala-2.13.8.tgz
sudo tar xvf scala-2.13.8.tgz
mv scala-2.13.8 scala
SCALA_HOME=/home/ztw/scala
PATH=$SCALA_HOME/bin:$PATH
安装py4j

Py4J在驱动程序上用于Python和Java SparkContext对象之间的本地通信,大型数据传输是通过不同的机制执行的。

pip install -i https://pypi.douban.com/simple py4j
安装spark
wget http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.4.8/spark-2.4.8-bin-hadoop2.7.tgz
tar xvf  spark-2.4.8-bin-hadoop2.7.tgz
mv spark-2.4.8-bin-hadoop2.7.tgz spark
SPARK_HOME=/home/ztw/spark
PATH=$SPARK_HOME/bin:$PATH
减少打印信息
cd ./spark
./bin/run-example SparkPi 10

cp conf/log4j.properties.template conf/log4j.properties
vim conf/log4j.properties

log4j.rootCategory=INFO, console

替换为

log4j.rootCategory=ERROR, console

验证

cd ./spark
./bin/run-example SparkPi 10

配置自定义SQL函数

配置好后,可以在SQL中使用

spark.udf.register("date_diff", lambda x, y: (datetime.strptime(y, '%Y-%m-%d') - datetime.strptime(x, '%Y-%m-%d')).days)

参考资料

https://blog.csdn.net/olizxq/article/details/118249447 (完整的安装过程)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值