【博学谷学习记录】超强总结，用心分享 | PySpark入门

Onzswhite

已于 2023-06-12 10:19:25 修改

阅读量79

点赞数

文章标签： spark 大数据 scala

于 2023-03-17 17:04:44 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Onzswhite/article/details/129623406

版权

#博学谷IT技术支持#

一、Spark基本介绍

1.1 Spark与MR对比

MR弊端：

计算效率慢，存在大量的磁盘和内存交互
使用的API相对较低级，大量功能需要自己实现
迭代计算不方便

Spark优点：

提供了全新的数据结构：RDD支持在内存中计算，部分迭代操作支持内存迭代。
Spark应用基于线程运行，MR基于进程运行，线程的启动和销毁优于进程。

1.2 Spark组件

Spark Core：主要提供了RDD各种API
Spark SQL：提供了DataFrame相关API，支持SQL方式操作
Spark Streaming：用于流式计算
Spark MLib：提供了用于机器学习的库
Spark Graphx：提供了用于进行图计算的库

二、Spark环境安装

Spark安装

上传安装包解压spark-3.1.2-bin-hadoop3.2.tgz
Spark的local模式开箱即用，进入bin目录执行spark-shell脚本
可以指定参数--master local[*]，表示使用当前机器上所有可用的资源
还可以指定集群地址
退出spark-shell使用:quit

Anaconda安装

下载Anaconda包
执行bash Anaconda3-2021.05-Linux-x86_64.sh
配置环境变量
修改bashrc文件
输入python启动anaconda

配置环境变量

vim /etc/profile

export ANACONDA_HOME=/root/anaconda3/bin

export PATH=$PATH:$ANACONDA_HOME/bin

source /etc/profile

修改bashrc文件

sudo vim ~/.bashrc

export PATH=~/anaconda3/bin:$PATH

安装python库：

pip install -i 镜像地址 -y 包名

conda install 包名

查看当前安装了哪些python库

conda list

创建一个虚拟环境

conda create 虚拟环境名 python=版本号

查询有哪些虚拟环境

conda env list

进入虚拟环境

conda activate 环境名

退出虚拟环境

conda deactivate

PySpark安装

指定镜像安装：pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark==3.1.2

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【博学谷学习记录】超强总结，用心分享 | PySpark入门

Spark安装
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。