目录
步骤大致是:
1.更新系统(可选择)
2.安装Python和pip
3.安装Jupyter
4.配置远程访问
5.安装Spark内核
6.配置Spark集成
7.启动Jupyter并测试
步骤 1:更新系统
sudo apt update && sudo apt upgrade -y
步骤 2:安装Python和pip
1.安装Python3和pip:
# Install Python3 and pip3 on Ubuntu
sudo apt install python3 python3-pip -y # -y flag automatically confirms the installation
# Verify installation
python3 --version
pip3 --version
# Example: Install a Python package using pip3
pip3 install requests
sudo apt install python3 python3-pip -y
2.设置默认Python版本为Python3:
sudo update-alternatives --install /usr/bin/python python /usr/bin/python3 1
python3 --version
sudo update-alternatives --install /usr/bin/python python /usr/bin/python3 1
python --version
步骤 3:安装Jupyter Notebook
1.使用pip安装Jupyter:
pip3 install jupyter
2.如果权限不足,可以添加 --user
参数安装到用户目录。
3.将Jupyter添加到环境变量:
echo 'export PATH="$HOME/.local/bin:$PATH"' >> ~/.bashrc
source ~/.bashrc
步骤 4:配置远程访问
1.生成Jupyter配置文件:
jupyter notebook --generate-config
2.设置访问密码:
jupyter notebook password
输入密码并确认。
3.修改配置文件:
nano ~/.jupyter/jupyter_notebook_config.py
4.添加以下配置:
c.NotebookApp.ip = '0.0.0.0' # 允许所有IP访问
c.NotebookApp.open_browser = False # 关闭自动打开浏览器
c.NotebookApp.port = 8888 # 指定端口(默认8888)
步骤 5:配置防火墙(可选)
如果启用了防火墙,开放端口:
sudo ufw allow 8888
步骤 6:启动Jupyter Notebook
jupyter notebook
或后台运行:
jupyter notebook --no-browser &
步骤 7:从宿主机访问
1.在虚拟机中获取IP地址:
hostname -I
2.在宿主机浏览器输入:
输入步骤4中设置的密码即可访问。
可选:集成Spark
1.安装PySpark:
pip3 install pyspark
2.设置环境变量(根据Spark安装路径修改):
echo 'export SPARK_HOME=/path/to/spark' >> ~/.bashrc
echo 'export PATH=$SPARK_HOME/bin:$PATH' >> ~/.bashrc
source ~/.bashrc
3.在Jupyter中测试Spark:
from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").appName("JupyterSpark").getOrCreate()
常见问题解决
-
权限问题:使用
sudo
或--user
参数安装。 -
端口冲突:修改
c.NotebookApp.port
使用其他端口。 -
无法访问:检查虚拟机防火墙和网络设置(如NAT/桥接模式)。