目录
在 Ubuntu 虚拟机 中安装 PyCharm 并集成 Spark 环境的详细教程
1. 更新系统,确保依赖项已安装。
2. 下载PyCharm的tar.gz包,从官网选择Linux版本。
3. 解压到合适的目录,比如/opt。
4. 创建启动器脚本或桌面快捷方式,方便启动。
5. 配置环境,比如设置Python解释器,可能需要链接到之前安装的Python3和PySpark。
6. 验证安装,运行PyCharm,创建测试项目,运行PySpark代码检查是否正常。
1. 准备工作:更新系统和依赖
sudo apt update && sudo apt upgrade -y
sudo apt install curl wget git python3-pip default-jdk -y # 确保已安装Java(Spark依赖)
sudo apt update && sudo apt upgrade -y
sudo apt install curl wget git python3-pip default-jdk -y
2. 下载 PyCharm 社区版(免费)
-
访问 PyCharm 官网,选择 Community 版本的
.tar.gz
文件。 -
使用
wget
下载(以下以 2024.1.3 版本为例):wget https://download.jetbrains.com/python/pycharm-community-2024.1.3.tar.gz
wget https://download.jetbrains.com/python/pycharm-community-2024.1.3.tar.gz
3. 解压并安装 PyCharm
sudo tar -xzf pycharm-community-*.tar.gz -C /opt/ # 解压到/opt目录
sudo mv /opt/pycharm-* /opt/pycharm # 重命名简化路径
sudo tar -xzf pycharm-community-*.tar.gz -C /opt/
sudo mv /opt/pycharm-* /opt/pycharm
4. 创建桌面快捷方式
方法1:命令行启动(临时)
/opt/pycharm/bin/pycharm.sh
方法2:创建桌面图标(永久)
-
创建启动器文件:
sudo nano /usr/share/applications/pycharm.desktop
sudo nano /usr/share/applications/pycharm.desktop
2.输入以下内容(调整路径):
[Desktop Entry]
Version=1.0
Type=Application
Name=PyCharm Community
Icon=/opt/pycharm/bin/pycharm.png
Exec=/opt/pycharm/bin/pycharm.sh
Comment=Python IDE for Spark Development
Categories=Development;IDE;
Terminal=false
StartupWMClass=jetbrains-pycharm-ce
[Desktop Entry]
Version=1.0
Type=Application
Name=PyCharm Community
Icon=/opt/pycharm/bin/pycharm.png
Exec=/opt/pycharm/bin/pycharm.sh
Comment=Python IDE for Spark Development
Categories=Development;IDE;
Terminal=false
StartupWMClass=jetbrains-pycharm-ce
-
3.赋予可执行权限:
sudo chmod +x /usr/share/applications/pycharm.desktop
sudo chmod +x /usr/share/applications/pycharm.desktop
5. 配置 PyCharm 支持 Spark
步骤1:启动PyCharm并创建项目
-
打开 PyCharm,创建新项目(如
SparkDemo
),选择 Python 3 解释器(默认路径/usr/bin/python3
)。
步骤2:添加 Spark 环境变量
-
在 PyCharm 中:
-
点击菜单栏 Run > Edit Configurations。
-
在 Environment variables 中添加:
SPARK_HOME=/opt/spark # 假设Spark已安装在此路径 PYSPARK_PYTHON=python3
-
保存配置。
-
步骤3:安装 PySpark 库(可选)
-
在 PyCharm 终端中运行:
pip install pyspark==3.5.0 # 版本需与Spark一致
pip install pyspark==3.5.0
6. 验证 PyCharm + Spark 集成
测试代码:创建 spark_test.py
from pyspark.sql import SparkSession
spark = SparkSession.builder \
.appName("PyCharmTest") \
.master("local[*]") \ # 使用所有CPU核心
.config("spark.driver.memory", "1g") \
.getOrCreate()
data = [("Python", 100), ("Spark", 200)]
df = spark.createDataFrame(data, ["Tool", "Rating"])
df.show()
spark.stop()
from pyspark.sql import SparkSession
spark = SparkSession.builder \
.appName("PyCharmTest") \
.master("local[*]") \
.config("spark.driver.memory", "1g") \
.getOrCreate()
data = [("Python", 100), ("Spark", 200)]
df = spark.createDataFrame(data, ["Tool", "Rating"])
df.show()
spark.stop()
运行代码
-
右键点击代码文件,选择 Run 'spark_test',观察输出是否成功显示 DataFrame。
常见问题解决
-
PyCharm 无法启动:
-
(1)检查是否安装 Java:
java -version
。
-
java -version
- (2)确保解压路径权限正确:
sudo chmod -R 755 /opt/pycharm
.
sudo chmod -R 755 /opt/pycharm
-
Spark 未找到:
-
确认
SPARK_HOME
路径是否与 Spark 实际安装路径一致(默认/opt/spark
)。
-
-
PySpark 导入错误:
-
在 PyCharm 中手动添加 Spark 的 Python 库路径:
-
import sys
sys.path.append("/opt/spark/python")
扩展:专业版激活(可选)
-
若需使用 PyCharm Professional(支持远程开发):
-
从官网下载专业版
.tar.gz
。 -
使用学生邮箱申请免费许可,或通过 Toolbox App 管理安装。
-