#博学谷IT技术支持#
一、Spark基本介绍
1.1 Spark与MR对比
MR弊端:
- 计算效率慢,存在大量的磁盘和内存交互
- 使用的API相对较低级,大量功能需要自己实现
- 迭代计算不方便
Spark优点:
- 提供了全新的数据结构:RDD支持在内存中计算,部分迭代操作支持内存迭代。
- Spark应用基于线程运行,MR基于进程运行,线程的启动和销毁优于进程。
1.2 Spark组件
- Spark Core:主要提供了RDD各种API
- Spark SQL:提供了DataFrame相关API,支持SQL方式操作
- Spark Streaming:用于流式计算
- Spark MLib:提供了用于机器学习的库
- Spark Graphx:提供了用于进行图计算的库
二、Spark环境安装
Spark安装
- 上传安装包解压spark-3.1.2-bin-hadoop3.2.tgz
- Spark的local模式开箱即用,进入bin目录执行spark-shell脚本
- 可以指定参数--master local[*],表示使用当前机器上所有可用的资源
- 还可以指定集群地址
- 退出spark-shell使用:quit
Anaconda安装
- 下载Anaconda包
- 执行bash Anaconda3-2021.05-Linux-x86_64.sh
- 配置环境变量
- 修改bashrc文件
- 输入python启动anaconda
配置环境变量
vim /etc/profile
export ANACONDA_HOME=/root/anaconda3/bin
export PATH=$PATH:$ANACONDA_HOME/bin
source /etc/profile
修改bashrc文件
sudo vim ~/.bashrc
export PATH=~/anaconda3/bin:$PATH
安装python库:
pip install -i 镜像地址 -y 包名
conda install 包名
查看当前安装了哪些python库
conda list
创建一个虚拟环境
conda create 虚拟环境名 python=版本号
查询有哪些虚拟环境
conda env list
进入虚拟环境
conda activate 环境名
退出虚拟环境
conda deactivate
PySpark安装
指定镜像安装:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark==3.1.2