spark
spark的详细介绍,包括RDD、DAG的介绍以及一些代码实操。
知然xu
这个作者很懒,什么都没留下…
展开
-
Spark教程(三)—— 安装与使用
Spark可以独立安装使用,也可以和Hadoop一起安装使用。本教程中,我们采用和Hadoop一起安装使用,这样,就可以让Spark使用HDFS存取数据。需要说明的是,当安装好Spark以后,里面就自带了scala环境,不需要额外安装scala,因此,“Spark安装”这个部分的教程,假设读者的计算机上,没有安装Scala,也没有安装Java(当然了,如果已经安装Java和Scal...原创 2020-04-19 11:44:49 · 1310 阅读 · 0 评论 -
Spark教程(二)—— RDD运行原理
一. RDD设计背景 程序运行阶段会涉及很多迭代算法, 这些场景的共同之处是, 不同计算阶段会重用中间结果, 即一个阶段的输出作为下一个阶段的输入. MapReduce在处理这种情况的时候更多的是把中间结果写入到HDFS中, 这种操作会带来大量的数据复制, 磁盘IO和序列化开销. RDD就是为了满足这种需求出现的, 它提供一个抽象的数据架构, 不必担心底层数据的分布式特性, 只需...原创 2020-04-19 09:36:33 · 1715 阅读 · 0 评论 -
Spark教程(一)—— Spark基本原理介绍
本文会依次介绍spark的发展过程、与Hadoop的区别、Spark生态、Spark的运行架构。内容比较多,大家可以分模块看,此外在文章前段如果出现一些不易懂的专业名词,请不要着急后面会依次介绍。 Spark知识涉及面比较广,会与HBase、HDFS、Kafka、ML等都交集,路长且艰,小编仅与读者共同前行,若有任何不同意见,欢迎留言指教。一、Spark基本介...原创 2020-01-13 14:29:28 · 566 阅读 · 0 评论