![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
PySpark
小鱼编程
越努力,越幸运
展开
-
Spark内核调度(重点理解)
文章目录1.DAG2.DAG的宽窄依赖和阶段划分3.内存迭代计算4.Spark并行度5.Spark任务调度6.Spark运行中的名词解释1.DAGDAG:有向无环图下图是带分区关系的DAG图上图其实就是一个job,只有一个action,就是一个DAG图。2.DAG的宽窄依赖和阶段划分3.内存迭代计算内存迭代计算就是说在一个task进程运行,不需要网络IO,如果全部放在一个内存进程里面跑,不用网络IO,但是这样并行度会大大下降,并行度优先于网络IO。纯内存迭代就是Local模原创 2022-05-17 10:51:01 · 290 阅读 · 1 评论 -
RDD缓存、广播变量、累加器知识点笔记
文章目录1.RDD数据是过程的2.RDD缓存1.RDD数据是过程的2.RDD缓存原创 2022-05-16 20:40:04 · 273 阅读 · 1 评论 -
RDD的Action算子详细笔记,对比学习
文章目录Action算子1.countByKey算子:统计key出现的次数(一般用在kv型RDD)2.collect算子:将RDD各个分区的内容收集到Driver,形成一个list对象3.reduce算子:对RDD数据按照你传入的逻辑进行聚合4.fold算子:和reduce差不多,只是加上了一个初始值5.first算子:就是取出第一个元素6.take算子:取RDD前N个元素,返回一个list7.top算子:对RDD数据集进行降序排序,取前N个8.count算子:计算RDD有多少条数据,返回值是一个数字9.t原创 2022-05-14 17:21:35 · 517 阅读 · 1 评论 -
RDD算子案例练习
文章目录1.数据集和问题2.代码部分1.数据集和问题2.代码部分原创 2022-05-13 11:07:51 · 280 阅读 · 1 评论 -
RDD Transformation算子编程-非常详细,对比学习
文章目录Transformation算子1.map算子:和python的一样,单个单个全部处理一遍2.flatMap算子:解除嵌套,本来合在一起的现在独立3.reduceByKey算子:先分组,再两两聚合4.mapValue算子:仅仅是计算value5.groupBy算子:分组的作用6.Filter算子:过滤掉不要的,保留想要的7.distinct算子:对RDD数据进行去重8.union算子:合并两个RDD为一个,可以混合合并9.join算子:对两个RDD进行连接操作(只能k-v型的)![](https:/原创 2022-05-13 10:35:14 · 194 阅读 · 1 评论 -
大数据RDD详解笔记
1.为什么需要RDD?RDD(Resilient Distribute Datasets):弹性分布式数据集2.RDD的五大特性前三个是必须的,后面两个是可选的。1.RDD是有分区的RDD的分区是RDD数据存储的最小单位,一份RDD数据本质上被分成了很多分区。分区是物理概念,RDD是逻辑上的概念,和列表字典一样。2.计算方法会作用到每一个分区之上3.RDD之间是有互相依赖关系的4.Key- Value型的RDD可以有分区5.RDD的分区规划,会尽量靠近数据所在的服务器3.w原创 2022-05-12 21:00:54 · 823 阅读 · 2 评论 -
Pyspark基础运行原理
1.类库VS框架2.什么是pyspark?3.应用入口:SparkContext原创 2022-05-09 22:07:21 · 496 阅读 · 1 评论 -
Spark on yarn运行原理以及两种部署模式
1.Spark on yarn运行原理2.Spark on yarn 部署模式Cluster模式Client模式原创 2022-05-09 16:07:09 · 468 阅读 · 1 评论 -
Spark local模式和stand alone(HA)模式原理
1.SPARK的local模式原理local[4]的角色图,两个程序可以运行运行spark local[*]模式也可以向spark中提交已经写好的python程序,spark- submitlocal模式总结2.SPARK的standalone原理spark的standalone环境配置,主要是spark-env.sh,在worker文件里面指定workers,配置好之后要分发到其他节点上,3台服务器,一台是master和worker,另外两台均为worker。运行sbin/原创 2022-05-09 11:32:45 · 508 阅读 · 0 评论 -
大数据杂谈(一些知识点和Linux命令)
1.分布式和集群的区别分布式:多台机器上部署不同的组建集群:多台机器上部署相同的组建2.SSH协议的定义公钥是服务器发给客户端的,服务器自己有私钥可以解密。3.linux基础和一些常用命令常用命令1.history:查看以前所用的写过的命令2.ls3.cd4.创建文件夹、文件,删除(rm)5.复制(cp)、移动(mv)6.查看文件内容命令(cat,more,tail)其中tail -f很重要7.管道命令和echo命令8输出重定向(覆盖和追加命令)9.原创 2022-05-02 12:54:07 · 1450 阅读 · 1 评论 -
第一章 Spark的基础原理和特点
Spark的基础原理和特点Spark和Hadoop的区别?由于spark仅仅只做计算,所以现在的架构往往是用spark取代了hodoop中的mapreduce部分,沿用了HDFS和YARN部分。Spark框架模块Spark运行模式YARN中的角色Spark角色:基本和YARN一样,只是名字不一样而已在正常情况下,Executor是干活的角色,但是在local模式下,Driver既调度又干活。总结...原创 2022-04-28 19:41:49 · 882 阅读 · 1 评论