pycharm上进行pyspark编程

最新推荐文章于 2025-03-17 19:41:51 发布

qq_43979159

最新推荐文章于 2025-03-17 19:41:51 发布

阅读量3.7k

点赞数 6

本文链接：https://blog.csdn.net/qq_43979159/article/details/109526378

版权

windows下在pycharm上进行pyspark编程

确保已经在windows下安装完spark,hadoop,python,java，并且能使用

1、打开pycharm，打开setting找到project structure选项，找到spark\python\lib下的两个包导入，记得要apply和ok。
在这里插入图片描述

2、找到project interpreter选项，下载py4j，pysparrk
在这里插入图片描述

3、配置环境变量，点击edit configurations
在这里插入图片描述

如图所示，根据个人安装位置进行编辑，最后在apply

4、测试

from pyspark.sql import SparkSession
from pyspark import SparkConf, SparkContext, SQLContext
sc = SparkContext()
spark = SparkSession.builder.config(conf=SparkConf()).getOrCreate()
#在本地运行spark，（"file:///你自己的spark位置“）
wholelicensefiles = sc.wholeTextFiles("file:///D:\\Program\\spark-2.3.3-bin-hadoop2.7\\licenses\\")
#查看创建对象
print(wholelicensefiles)
#返回一个列表，其中包含从该目录读取的第一个文件
print(wholelicensefiles.take(1))
#该目录按照一定方法自动分区
print(wholelicensefiles.getNumPartitions())
#计算所有文件的总数
print(wholelicensefiles.count())