Spark知识体系

最新推荐文章于 2024-07-31 13:16:03 发布

活出别致的高傲

最新推荐文章于 2024-07-31 13:16:03 发布

阅读量273

点赞数

分类专栏：陶笔记文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43006059/article/details/92849602

版权

陶笔记专栏收录该内容

19 篇文章 0 订阅

订阅专栏

Spark总结

欢迎进入陶笔记博文

欢迎进入陶笔记博文

什么是spark？

中文官网文档详情：http://spark.apachecn.org/

Apache Spark 是一个快速的，多用途的集群计算系统。
它提供了 Java，Scala，Python 和 R 的高级 API，以及一个支持通用的执行图计算的优化过的引擎。
它还支持一组丰富的高级工具，包括使用 SQL 处理结构化数据处理的 Spark SQL，用于机器学习的 MLlib，用于图计算的 GraphX，以及 Spark Streaming。
spark是基于内存的，分布式的（hadoop）大数据计算引擎。

spark整体脉络

spark-core
spark-sql
spark-streaming

spark-core

1.最核心最基础的阶段
2.spark的集群的安装
3.程序会提交到集群（如何提交）
<1> spark-shell方式：./bin/spark-shell --master local【2】

–master针对分布式集群的master URL
local[N]为本地模式，N代表有多少个线程
<2> 集群部署模式
Standalone Deploy Mode：在私有集群上部署 Spark 最简单的方式
Apache Mesos：资源调度平台
Hadoop YARN：统一资源调度
local：本地模式
RDD：弹性分布式数据集（弹性：容错性，数据丢失后可以根据血统来容错）
spark运行机制
spark高级特性：宽窄依赖，缓存，持久化，广播变量，累加器

搭建集群（spark）-框架

框架的使用套路：
下载
上传
解压
配置文件
启动
使用

集群机器的准备工作

准备四台机器：
Linux01:192.168.11.21
(配置映射)
NAT(网关)：192.168.11.22
windows的本地ip：192.168.11.1
Master:Linux01
Worker:Linux02 Linux03 Linux04
问master和worker能不能部署在同一台机器上
答：可以的

集群的安装

JDK 1.8
Scala （不需要装？Spark自带scala jar包）

防火墙
验证：service iptables status
关闭：service iptables stop (临时关闭)
Chkconfig iptables off((永久关闭)
免密登录：
只需要主节点能到从节点
映射关系：
目的：机器比较多直接主机名就可以
上传并解压
解压：tar -zxvf +包
在这里插入图片描述
Bin:spark的一些命令
Sbin:集群启停的命令
Conf:配置文件
修改配置文件 vim spark_env.sh

有了这些配置，我们就能够启动集群了
配置slaves
目的：启动spark的时候能够批量启动

活出别致的高傲

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

活出别致的高傲 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。