pyspark配置和使用

window下pyspark环境搭建

  • 配置hadoop
    • 下载hadoop、winutils
    • 安装、配置环境变量
    • 用winutils覆盖掉hadoop-2.2.0\bin下所有内容
  • 配置spark
    • 下载spark
    • 安装(安装路径不能有空格)、配置环境变量
  • 配置pyspark
    • 拷贝 D:\spark-1.6.1\python\pyspark 至 D:\Program Files\Python\Python27\Lib\site-packages
    • pip install py4j

WordCount程序示例

# -*- coding: UTF-8 -*-
from pyspark import SparkContext, SparkConf
import sys


def run(input_path, output_path):
    conf = SparkConf()\
        .set("spark.hadoop.validateOutputSpecs", "false") \
        .set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")\
        .setAppName("helloWorld")\
        .setMaster("local[*]")

    sc = SparkContext(conf=conf)
    rdd = sc.textFile(input_path)

    re = rdd.flatMap(lambda x: x.split(' ')).map(lambda x: (x, 1)).reduceByKey(lambda x, y: x+y).sortBy(lambda x: x[1], False)

    re.saveAsTextFile(output_path)

    sc.stop()


# 脚本传递的参数
# E:/project_sync_repository/learn_pyspark/tmp/logs/words E:/project_sync_repository/learn_pyspark/tmp/out/result
if __name__ == "__main__":
    input_path = sys.argv[1]
    output_path = sys.argv[2]
    run(input_path, output_path)
# 脚本传递的参数
# D:\python-package E:/project_sync_repository/learn_pyspark/tmp/logs/words E:/project_sync_repository/learn_pyspark/tmp/out/result
if __name__ == "__main__":
    python_package = sys.argv[1]
    input_path = sys.argv[2]
    output_path = sys.argv[3]
    sys.path.append(python_package)
    run(input_path, output_path)

pyspark递交到yarn上运行

/home/hadoop/soft/spark/bin/spark-submit \
--master yarn \
--deploy-mode cluster \
--num-executors 1 \
--executor-memory 1G \
wordCount.py hdfs://artemis-02:9000/tmp/lvxw/learn_pyspark/logs/words  hdfs://artemis-02:9000/tmp/lvxw/learn_pyspark/out/result
配置pyspark的环境变量,你可以按照步骤进行操作: 1. 首先,下载pyspark。你可以从Spark官方网站上下载pyspark的安装包。 2. 安装完成后,创建一个名为`SPARK_HOME`的环境变量,并将其值设置为pyspark的安装路径。例如,如果你的pyspark安装在`D:\spark\spark-3.2.1-bin-hadoop3.2`,那么`SPARK_HOME`的值应设置为`D:\spark\spark-3.2.1-bin-hadoop3.2`。 3. 接下来,将pyspark的bin目录添加到系统的Path环境变量中。找到系统的环境变量设置,将`%SPARK_HOME%\bin`添加到Path环境变量的末尾。 4. 配置完成后,打开终端,输入`spark-shell`命令来启动pyspark。如果出现了与图一相似的界面,说明环境变量配置成功。 需要注意的是,上述步骤适用于在命令行中使用pyspark。如果你想在集成开发环境(IDE)中运行pyspark代码,可以根据自己使用的IDE进行相应的配置。例如,在VS Code中,你可以安装Jupyter插件来运行pyspark代码。 希望这些信息对你有所帮助。如有其他问题,请随时提问。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [pyspark的环境配置](https://blog.csdn.net/liuwff/article/details/105492749)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [pyspark基础学习——环境配置](https://blog.csdn.net/qq_55054198/article/details/125789609)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值