【博学谷学习记录】超强总结,用心分享 | PySpark入门

 #博学谷IT技术支持#

一、Spark基本介绍

1.1 Spark与MR对比

MR弊端:

  1. 计算效率慢,存在大量的磁盘和内存交互
  2. 使用的API相对较低级,大量功能需要自己实现
  3. 迭代计算不方便

Spark优点:

  1. 提供了全新的数据结构:RDD支持在内存中计算,部分迭代操作支持内存迭代。
  2. Spark应用基于线程运行,MR基于进程运行,线程的启动和销毁优于进程。

1.2 Spark组件

  • Spark Core:主要提供了RDD各种API
  • Spark SQL:提供了DataFrame相关API,支持SQL方式操作
  • Spark Streaming:用于流式计算
  • Spark MLib:提供了用于机器学习的库
  • Spark Graphx:提供了用于进行图计算的库

二、Spark环境安装

Spark安装

  1. 上传安装包解压spark-3.1.2-bin-hadoop3.2.tgz
  2. Spark的local模式开箱即用,进入bin目录执行spark-shell脚本
  3. 可以指定参数--master local[*],表示使用当前机器上所有可用的资源
  4. 还可以指定集群地址
  5. 退出spark-shell使用:quit

Anaconda安装

  1. 下载Anaconda包
  2. 执行bash Anaconda3-2021.05-Linux-x86_64.sh
  3. 配置环境变量
  4. 修改bashrc文件
  5. 输入python启动anaconda

配置环境变量

vim /etc/profile

export ANACONDA_HOME=/root/anaconda3/bin

export PATH=$PATH:$ANACONDA_HOME/bin

source /etc/profile

修改bashrc文件

sudo vim ~/.bashrc

export PATH=~/anaconda3/bin:$PATH

安装python库:

pip install -i 镜像地址 -y 包名

conda install 包名

查看当前安装了哪些python库

conda list

创建一个虚拟环境

conda create 虚拟环境名 python=版本号

查询有哪些虚拟环境

conda env list

进入虚拟环境

conda activate 环境名

退出虚拟环境

conda deactivate

PySpark安装

指定镜像安装:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark==3.1.2

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值