Spark
exklin
hello
展开
-
Spark快速入门
sparkspark背景什么是sparkSpark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目,Sp...原创 2018-12-07 17:46:16 · 1666 阅读 · 0 评论 -
Spark RDD 详解
Spark CoreRDD概述什么是RDDRDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。在 Spark 中,对数据的所有操作不外乎创建 RDD、转化已有RDD 以及调用 RDD 操作进行求值。每个 RDD 都被分为多个分区,这些分区运行在集群中的不同节点上。RDD 可...原创 2019-02-13 15:39:54 · 1792 阅读 · 1 评论 -
Spark SQL详解
Spark SQLSpark SQL 核心概念什么是 Spark SQLSpark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率...原创 2019-03-03 22:28:30 · 2614 阅读 · 0 评论 -
Spark Steaming快速入门
Spark SteamingSpark Streaming 简介什么是Spark StreamingSpark Streaming使用Spark Core的快速调度功能来执行流分析。它以小批量方式提取数据,并对这些小批量数据执行RDD转换。此设计使得为批量分析编写的同一组应用程序代码可用于流分析,从而有助于轻松实现lambda体系结构。 然而,这种便利性带来的等待时间等于小批量持续时间。其他...原创 2019-03-17 23:24:28 · 2663 阅读 · 0 评论 -
Spark Structured Steaming实战
Spark Structured SteamingSpark Structured Streaming 简介什么是 Spark Structured StreamingStructured Streaming (结构化流)是一种基于 Spark SQL 引擎构建的可扩展且容错的 stream processing engine (流处理引擎)。您可以以静态数据表示批量计算的方式来表达 str...原创 2019-04-02 14:42:38 · 2341 阅读 · 0 评论