[特殊字符] “大数据开发必备:Ubuntu虚拟机PyCharm与Spark联动的环境配置秘籍”

目录

1. 准备工作:更新系统和依赖

2. 下载 PyCharm 社区版(免费)

3. 解压并安装 PyCharm

4. 创建桌面快捷方式

方法1:命令行启动(临时)

方法2:创建桌面图标(永久)

5. 配置 PyCharm 支持 Spark

   步骤1:启动PyCharm并创建项目

   步骤2:添加 Spark 环境变量

   步骤3:安装 PySpark 库(可选)

6. 验证 PyCharm + Spark 集成

测试代码:创建 spark_test.py

运行代码

常见问题解决

Spark 未找到:

扩展:专业版激活(可选)


在 Ubuntu 虚拟机 中安装 PyCharm 并集成 Spark 环境的详细教程

     1. 更新系统,确保依赖项已安装。

     2. 下载PyCharm的tar.gz包,从官网选择Linux版本。

     3. 解压到合适的目录,比如/opt。

     4. 创建启动器脚本或桌面快捷方式,方便启动。

     5. 配置环境,比如设置Python解释器,可能需要链接到之前安装的Python3和PySpark。

     6. 验证安装,运行PyCharm,创建测试项目,运行PySpark代码检查是否正常。

1. 准备工作:更新系统和依赖

sudo apt update && sudo apt upgrade -y
sudo apt install curl wget git python3-pip default-jdk -y  # 确保已安装Java(Spark依赖)
sudo apt update && sudo apt upgrade -y
sudo apt install curl wget git python3-pip default-jdk -y
 

2. 下载 PyCharm 社区版(免费)

  • 访问 PyCharm 官网,选择 Community 版本的 .tar.gz 文件。

  • 使用 wget 下载(以下以 2024.1.3 版本为例):

    wget https://download.jetbrains.com/python/pycharm-community-2024.1.3.tar.gz
wget https://download.jetbrains.com/python/pycharm-community-2024.1.3.tar.gz
 

3. 解压并安装 PyCharm

sudo tar -xzf pycharm-community-*.tar.gz -C /opt/  # 解压到/opt目录
sudo mv /opt/pycharm-* /opt/pycharm  # 重命名简化路径
sudo tar -xzf pycharm-community-*.tar.gz -C /opt/
sudo mv /opt/pycharm-* /opt/pycharm
 

4. 创建桌面快捷方式

方法1:命令行启动(临时)
/opt/pycharm/bin/pycharm.sh
方法2:创建桌面图标(永久)
  1. 创建启动器文件:

    sudo nano /usr/share/applications/pycharm.desktop
sudo nano /usr/share/applications/pycharm.desktop
 

     2.输入以下内容(调整路径):

    [Desktop Entry]
    Version=1.0
    Type=Application
    Name=PyCharm Community
    Icon=/opt/pycharm/bin/pycharm.png
  Exec=/opt/pycharm/bin/pycharm.sh
Comment=Python IDE for Spark Development
Categories=Development;IDE;
Terminal=false
StartupWMClass=jetbrains-pycharm-ce
[Desktop Entry]
Version=1.0
Type=Application
Name=PyCharm Community
Icon=/opt/pycharm/bin/pycharm.png
Exec=/opt/pycharm/bin/pycharm.sh
Comment=Python IDE for Spark Development
Categories=Development;IDE;
Terminal=false
StartupWMClass=jetbrains-pycharm-ce
 
  • 3.赋予可执行权限:

    sudo chmod +x /usr/share/applications/pycharm.desktop
sudo chmod +x /usr/share/applications/pycharm.desktop
 


5. 配置 PyCharm 支持 Spark

   步骤1:启动PyCharm并创建项目
  • 打开 PyCharm,创建新项目(如 SparkDemo),选择 Python 3 解释器(默认路径 /usr/bin/python3)。

   步骤2:添加 Spark 环境变量
  1. 在 PyCharm 中

    • 点击菜单栏 Run > Edit Configurations

    • 在 Environment variables 中添加:

      SPARK_HOME=/opt/spark  # 假设Spark已安装在此路径
      PYSPARK_PYTHON=python3
    • 保存配置。

   步骤3:安装 PySpark 库(可选)
  • 在 PyCharm 终端中运行:

    pip install pyspark==3.5.0  # 版本需与Spark一致
pip install pyspark==3.5.0
 

6. 验证 PyCharm + Spark 集成

测试代码:创建 spark_test.py
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("PyCharmTest") \
    .master("local[*]") \  # 使用所有CPU核心
    .config("spark.driver.memory", "1g") \
    .getOrCreate()

data = [("Python", 100), ("Spark", 200)]
df = spark.createDataFrame(data, ["Tool", "Rating"])
df.show()

spark.stop()
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("PyCharmTest") \
    .master("local[*]") \
    .config("spark.driver.memory", "1g") \
    .getOrCreate()

data = [("Python", 100), ("Spark", 200)]
df = spark.createDataFrame(data, ["Tool", "Rating"])
df.show()

spark.stop()
 
运行代码
  • 右键点击代码文件,选择 Run 'spark_test',观察输出是否成功显示 DataFrame。


常见问题解决

  1. PyCharm 无法启动

    • (1)检查是否安装 Java:java -version

java -version
 
  1. (2)确保解压路径权限正确:sudo chmod -R 755 /opt/pycharm.
sudo chmod -R 755 /opt/pycharm
 
  1. Spark 未找到:
    • 确认 SPARK_HOME 路径是否与 Spark 实际安装路径一致(默认 /opt/spark)。

  2. PySpark 导入错误

    • 在 PyCharm 中手动添加 Spark 的 Python 库路径:

import sys
sys.path.append("/opt/spark/python")
 

扩展:专业版激活(可选)

  • 若需使用 PyCharm Professional(支持远程开发):

    1. 从官网下载专业版 .tar.gz

    2. 使用学生邮箱申请免费许可,或通过 Toolbox App 管理安装。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值