Spark
Gwynbleidddd
这个作者很懒,什么都没留下…
展开
-
Spark基础(五)SparkSteaming
从批处理到流处理批处理在批处理中,新到达的数据元素被收集到一个组中。整个组在未来的时间进行处理(作为批处理,因此称为“批处理”)。确切地说,何时处理每个组可以用多种方式来确定 - 例如,它可以基于预定的时间间隔(例如,每五分钟,处理任何新的数据已被收集)或在某些触发的条件下(例如,处理只要它包含五个数据元素或一旦它拥有超过1MB的数据)。流处理在流处理中,每一条新数据都会在到达时进行处理。与批处理不同,在下一批处理间隔之前不会等待,数据将作为单独的碎片进行处理, 而不是一次处理批量。批处理和流处理原创 2020-12-06 00:29:25 · 830 阅读 · 0 评论 -
Spark基础(四)SparkSQL
Spark基础(四)SparkSQLSparkSQL简介RDD,DataFrame,DataSetDataframeDatasetDataFrame的创建DataSet的创建SparkSQL简介是Spark中针对处理结构化数据的模块。与hive类似。通过sql语句方式对结构化数据进行分析。RDD,DataFrame,DataSetDataFrame,DataSet是操作sparkSql的抽象SparkCore的数据抽象 是RDD的格式。SparkSQL的抽象是dataframe,dataset。原创 2020-12-05 11:35:09 · 492 阅读 · 0 评论 -
Spark基础(三)Spark中的任务执行
Spark基础(三)Spark中的任务执行Spark的任务调度Driver的工作容错机制Spark的架构特点Spark的任务调度Driver的工作1、JAR==》DAG根据客户端提交的jar包划分出来一个个的RDD,根据RDD之间的lineage关系划分DAG。划分DAG的目的是为了划分stage。2、DAG通过DAGScheller划分为stage===》再划分为taskSet根据划分出来的DAG,将DAG送个DAGScheduler,接收到DAG之后划分stage,根据stage划分tas原创 2020-12-04 21:57:56 · 214 阅读 · 1 评论 -
Spark基础(二)RDD简介
参考文章Spark学习之路 (三)Spark之RDDSpark基础(二)RDD简介从MR到RDDRDD的简介RDD的属性RDD的弹性RDD的特点RDD的算子ActionTransformation从MR到RDD1、 在MR的计算中,每次的map与reduce完成后都需要写入到磁盘中,所需的时间较长,增加了整体计算的时间。2、在Hive出现后直接的数据存储已经解决。可以方便的通过SQL进行数据的读取操作,但是计算本身依然依赖于MR。依然没有解决落盘所需时间较长的问题。3、Spark出现,支持将.原创 2020-12-03 21:20:11 · 89 阅读 · 0 评论 -
Spark基础(一)简介
Spark简介spark 一个通用的计算引擎,专门为大规模数据处理而设计,与 mapreduce 类似,不同的是,mapreduce 把中间结果 写入 hdfs,而 spark 直接写入 内存,这使得它能够实现实时计算。spark 由 scala 语言开发,他能够和 scala 完美结合,同时实现了 java、python、R 等接口。Spark搭建spark 有 3 种搭建模式local 模式:即单机模式,这种安装加压即可,具体安装方法穿插在 Standalone 模式Standalone 模原创 2020-12-02 16:18:54 · 169 阅读 · 0 评论