windows下在pycharm上进行pyspark编程
确保已经在windows下安装完spark,hadoop,python,java,并且能使用
1、打开pycharm,打开setting找到project structure选项,找到spark\python\lib下的两个包导入,记得要apply和ok。
2、找到project interpreter选项,下载py4j,pysparrk
3、配置环境变量,点击edit configurations
如图所示,根据个人安装位置进行编辑,最后在apply
4、测试
from pyspark.sql import SparkSession
from pyspark import SparkConf, SparkContext, SQLContext
sc = SparkContext()
spark = SparkSession.builder.config(conf=SparkConf()).getOrCreate()
#在本地运行spark,("file:///你自己的spark位置“)
wholelicensefiles = sc.wholeTextFiles("file:///D:\\Program\\spark-2.3.3-bin-hadoop2.7\\licenses\\")
#查看创建对象
print(wholelicensefiles)
#返回一个列表,其中包含从该目录读取的第一个文件
print(wholelicensefiles.take(1))
#该目录按照一定方法自动分区
print(wholelicensefiles.getNumPartitions())
#计算所有文件的总数
print(wholelicensefiles.count())
运行结果如下
如果没有出错的话就可以开始在pycharm下进行pyspark编程^^
有问题的话可以在评论下留言