PyCharm 开发pyspark 应用程序

创建新的空项目:
在这里插入图片描述
测试一下环境是否ok
在这里插入图片描述

同时,也是为了配置一下spark环境
在这里插入图片描述
在这里插入图片描述
添加如下两个环境变量:
在这里插入图片描述
接下来:
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
达到这样,就ok
在这里插入图片描述

IDE开发环境就配置ok了,开始Coding…

from pyspark import SparkConf,SparkContext


if __name__ == '__main__':

    def my_map():
        conf = SparkConf().setMaster("local[2]").setAppName("spark-demo0401")
        sc = SparkContext(conf=conf)

        data = [1, 2, 3, 4, 5]
        inputRDD = sc.parallelize(data)

        mapRDD = inputRDD.map(lambda x:x*2)

        print(mapRDD.collect())
        sc.stop()


    def my_filter():
        conf = SparkConf()
        sc = SparkContext(conf=conf)

        data = [1,2,3,4,5]
        inputRDD = sc.parallelize(data)
        output = inputRDD.map(lambda x:x*2).filter(lambda x:x>4)
        print(output.collect())


    def my_flatMap():
        conf= SparkConf()
        sc = SparkContext(conf=conf)

        data = ["hello,spark","hello,world","hello,pyspark"]
        inputRDD = sc.parallelize(data)
        output = inputRDD.flatMap(lambda x:x.split(","))
        print(output.collect())

    def my_groupByKey():
        conf = SparkConf()
        sc = SparkContext(conf=conf)
        data = ["hello,spark", "hello,world", "hello,pyspark"]
        inputRDD = sc.parallelize(data)\
            .flatMap(lambda x:x.split(","))\
            .map(lambda x:(x,1))
        output = inputRDD.groupByKey().collect()
        print(output)


    def my_reduceByKey():
        conf = SparkConf()
        sc = SparkContext(conf=conf)
        data = ["hello,spark", "hello,world", "hello,spark"]
        inputRDD = sc.parallelize(data) \
            .flatMap(lambda x: x.split(",")) \
            .map(lambda x: (x, 1))\
            .reduceByKey(lambda x,y:x+y)
        output = inputRDD.collect()
        print(output)

    def my_sortByKey():
        conf = SparkConf()
        sc= SparkContext(conf=conf)
        data = ["hello,spark", "hello,world", "hello,spark"]
        inputRDD = sc.parallelize(data).flatMap(lambda x:x.split(","))\
            .map(lambda x:(x,1)).reduceByKey(lambda x,y:x+y)\
            .map(lambda x:(x[1],x[0])).sortByKey(ascending=False).map(lambda x:(x[1],x[0]))

        print(inputRDD.collect())

    my_sortByKey()




PyCharm是一款由JetBrains公司开发的Python集成开发环境,支持代码分析、图形化调试以及集成版本控制等特性,非常适合进行Python开发工作。而PySpark是Apache Spark的Python API,它提供了一个高性能的集群计算系统,并且对Python语言提供了良好的支持。 要在PyCharm开发PySpark项目,你可以遵循以下步骤: 1. 安装PyCharm:从JetBrains官网下载并安装PyCharm到你的电脑上。 2. 安装Python解释器:在PyCharm中创建一个新的项目,并选择安装Python解释器。可以通过PyCharm的项目解释器设置来安装或者配置已有的Python环境。 3. 安装PySpark:在PyCharm的终端中,使用pip命令安装PySpark库。通常命令如下: ``` pip install pyspark ``` 也可以选择使用conda来安装,如果使用的是conda环境管理器: ``` conda install pyspark ``` 4. 创建Spark配置文件:在项目目录中创建一个名为`spark-defaults.conf`的文件,配置必要的Spark参数。例如: ``` spark.master local[*] spark.eventLog.enabled true spark.eventLog.dir file:///path/to/spark/eventLogDir ``` 5. 配置PyCharm以运行PySpark应用:在PyCharm中设置运行/调试配置,指定Python解释器、工作目录、环境变量等。对于PySpark应用,可能需要设置`PYSPARK_PYTHON`环境变量,指定Python解释器的路径。 6. 编写PySpark代码:在PyCharm中编写PySpark代码,使用PySpark的DataFrame API或其他功能进行数据分析和处理。 7. 运行和调试:使用PyCharm的运行按钮来执行PySpark应用,或使用调试功能进行代码调试。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值