Spark 学习笔记
文章平均质量分 78
记录一下学习过程
拉格朗日(Lagrange)
拉格朗日中值定理
展开
-
【Spark学习笔记】- 5.1 IO基本实现原理
task 放到哪个位置合适,从下图可以看出,在分布式节点中,task可以放到上面的节点也可以放到下面的节点。我们可以看到数据是在上面的节点中,逻辑计算是在下面的节点上。如果将上面的节点中的数据转移到下面的节点中,且节点的数据非常大,那么需要考虑网络延迟问题。字符流的底层逻辑 依旧是字节流,一个一个字节读取后,转换成字符。读取完后,不会马上打印出来先放到buff缓冲区域,待到达某个阈值,一起打印出来。之前的RDD是不保存数据的,但是IO可以临时保存一部分数据。由IO操作原理可见,对RDD进行了层层的装饰。原创 2023-12-06 20:44:52 · 447 阅读 · 0 评论 -
【Spark学习笔记】- 4运行架构&核心组件&核心概念
由于这样的弊端,催生了支持 DAG 框 架的产生。在分布式计算框架中一般都是多个任务同时执行,由于任务分布在不同的计算节点进行 计算, 所以能够真正地实现多任务并行执行, 记住,这里是并行, 而不是并发。,这里的 Master 是一个进 程, 主要负责资源的调度和分配,并进行集群的监控等职责, 类似于 Yarn 环境中的RM, 而 Worker 呢,也是进程, 一个 Worker 运行在集群中的一台服务器上, 由Master 分配资源对 数据进行并行的处理和计算,类似于 Yarn 环境中 NM。原创 2023-10-07 10:00:00 · 990 阅读 · 0 评论 -
【Spark学习笔记】- 1Spark和Hadoop的区别
Spark Task 的启动时间快。Spark 只有在 shuffle 的时候将数据写入磁盘,而 Hadoop 中多个 MR 作业之间的数据交。经过上面的比较,我们可以看出在绝大多数的数据计算场景中,Spark 确实会比 MapReduce。在之前的学习中,Hadoop 的 MapReduce 是大家广为熟知的计算框架,那为什么咱们还。但是 Spark 是基于内存的,所以在实际的生产环境中,由于内存的限制,可能会。架的基础上,利用其计算过程的优化,从而大大加快了数据分析、挖掘的运行和读写速。原创 2023-08-14 10:15:00 · 253 阅读 · 0 评论 -
【Spark学习笔记】- 初始 Apache Spark
首先Spark摒弃了MapReduce中的线map在reduce这样严格的方式,spark 可以执行更通用的有向无环图算子,这就意味着,在MapReduce 中需要将中间结果写入分布式文件系统时,Spark能将中间结果直接传入流水作业线的下一步。再次,Spark扩展了前辈们的内存计算能力。作为一个通用的计算引擎,它的核心API为数据转换提供了强大的基础,它独立于统计学、机器学习活矩阵代数的任何功能,它的SCALA和python API 让我们可以用表达力极强的通用编程语言编写程序,还可以访问已有的库。原创 2023-01-10 10:00:00 · 989 阅读 · 0 评论 -
【Spark学习笔记】- 数据科学面临的挑战
「数据科学」有几个硬道理是不可违背的,Cloudera数据科学团队的一项重要职责就是宣扬这些硬道理。一个系统要想在海量数据的复杂分析方面取得成功,必须的明白这些硬道理,。,绝大部分的工作是数据预处理。数据是混乱的,在让数据产生价值之前,必须对数据进行清洗,处理,融合,挖掘和其他操作。特别是大数据集,由于人们很难直接检查,为了知道需要哪些预处理步骤,甚至需要采用计算方法。一般情况下,即使在模型调优阶段,在整个数据处理管道的各个作业中,花在特征提取和选择上的时间比选择和实现算法的时间还要多。比如,在构建网站欺诈原创 2023-01-03 10:15:00 · 918 阅读 · 0 评论