无需安装Hadoop--无需安装Scala--无需安装spark--无需配置环境
很多初学者,都是复制粘贴别人的教程,对pyspark 没有深入的理解,照葫芦画瓢,劳民伤财,多走弯路。
这片博客讲述了最快捷的方式进行安装pyspark(local模式)。
第一步
如果安装了 Oracle JDK或者openjdk 可以直接进入第三步;
如果安装了Oracle JDK并想安装openjdk,则需要删除已有的卸载Oracle JDK,并进入第二步;
如果没有安装JDK,可以直接进入第二步。
第二步
安装Java ,我装的openjdk,连接地址如下
https://adoptopenjdk.net/?variant=openjdk8&jvmVariant=hotspot
下载后,双击点击,一直按下去就可以安装成功
然后打开iTerm输入 java -verison
第三步
前提是安装好anaconda,并把镜像设置为清华,连接地址:清华镜像配置
1.安装pyspark
pip install pyspark
2.在iTerm 输入pyspark,效果如下
在IDE上运行一下脚本
-*- coding: utf-8 -*-
from pyspark.sql import SparkSession
spark = SparkSession \
.builder \
.appName("my_first_app_spark") \
.enableHiveSupport() \
.getOrCreate()
spark.sql("select 1").show(10)
import time
time.sleep(100)
print('perfect ')
运行结果
打开浏览器输入:localhost:4040
大功告成,如何使用pyspark,请见我的其他博客
https://blog.csdn.net/hejp_123/category_8708607.html