pyspark 安装记录

1、安装软件

1、python 3.10

2、hadoop-3.3.4   里面的winutils 要记得添加

3、java-17

4、spark-3.5.1-bin-hadoop3

python 安装 pyspark,Jupyter notebook

pip install pyspark
pip install jupyter notebook

2、添加环境变量 

  1. JAVA_HOME=C:\PySparkService\java-17
  2. HADOOP_HOME=C:\PySparkService\hadoop-3.3.4
  3. SPARK_HOME=C:\PySparkService\spark-3.5.1-bin-hadoop3
  4. %JAVA_HOME%\bin
  5. %HADOOP_HOME%\bin
  6. %SPARK_HOME%\bin

下面环境不配置会报错

PYSPARK_PYTHON=python

#jupyter notebook 启动 pyspark

# 自己安装 jupyter notebook 使用下面环境变量

PYSPARK_DRIVER_PYTHON=jupyter

<

Pyspark 是 Apache Spark 的 Python 接口,它允许用户使用 Python 编程语言与 Spark 集群交互,提供了一种简洁、高效的方式来进行大数据处理。以下是使用 Pyspark 的基本步骤: ### 安装 Pyspark 首先,你需要安装 PySpark。如果你已经有了 Python 环境,可以通过 pip 安装 Pyspark: ```bash pip install pyspark ``` ### 导入库并创建 SparkSession `SparkSession` 是进入 Spark 生态系统的入口点。你可以通过它访问所有 Spark 功能。 ```python from pyspark.sql import SparkSession # 创建 SparkSession spark = SparkSession.builder \ .appName("PySpark 示例") \ .getOrCreate() ``` ### 加载数据 可以将各种格式的数据加载到 DataFrame 中,例如 CSV、JSON 或 Parquet 文件等。 ```python df = spark.read.csv("/path/to/file.csv", header=True, inferSchema=True) ``` ### 查看数据结构 获取 DataFrame 的基本信息,包括列名和数据类型。 ```python df.printSchema() ``` ### 进行数据操作 使用 DataFrame API 执行 SQL 查询、过滤、聚合等操作。 ```python result_df = df.filter(df['column_name'] > value).groupBy('another_column').sum('value_column') ``` ### 写出结果到文件 可以将处理后的数据存储回硬盘或上传到 HDFS。 ```python result_df.write.parquet('/path/to/output.parquet') ``` ### 关闭 SparkSession 运行完毕后关闭 SparkSession,释放资源。 ```python spark.stop() ``` ### 相关问题: 1. **如何优化 Pyspark 性能?** - 异常处理通常需要在 Pyspark 脚本中加入 try-except 结构,并适当地记录日志信息。 3. **如何在本地环境中测试和调试 Pyspark 应用程序?** - 使用 PyCharm、VSCode 等集成开发环境配合虚拟化技术进行端到端的测试。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值