Spark
GaryBigPig
这个作者很懒,什么都没留下…
展开
-
Spark学习笔记:基本概念
Spark背景 MapReduce的局限性 仅支持Map和Reduce两种操作,需要所有问题都转换成map和reduce,有些问题不好转换,代码比较冗余,编程不够灵活; 处理效率低:Map中间结果写磁盘,Reduce写HDFS,多个MR之间通过HDFS交换数据,所以Io开销大效率比较低;任务调度和启动开销大;无法充分利用内存;Map端和Reduce端均需要排序; 不适合迭代计算(如机器学习、图计...原创 2019-01-21 22:43:07 · 392 阅读 · 0 评论 -
Spark学习笔记:运行模式
Spark运行模式 Wordcount实例 import org.apache.spark._ import SparkContext._ object WordCount { def main(args: Array[String]) { if (args.length != 3 ){ println("usage is org.test.WordCount <master&...原创 2019-01-02 21:43:29 · 216 阅读 · 0 评论 -
Spark学习笔记: Spark Streaming
背景 很多重要的应用要处理大量在线流式数据,并返回近似实时的结果,比如社交网络趋势追踪,网站指标统计,广告系统。所以需要具备分布式流式处理框架的基本特征,包括良好的扩展性(百级别节点)和低延迟(秒级别)。 批处理 MapReduce和Spark Core都是批处理:需要收集数据,然后分批处理,这样一般会有一定的延时。 流式处理 数据收集后,直接处理。 流式计算框架 Spark Streaming...原创 2019-01-24 23:23:02 · 431 阅读 · 0 评论 -
Spark学习笔记:程序设计
基本流程 创建SparkContext对象 封装了spark执行环境的上下文信息,必须有且只有一个; 创建RDD 可从Scala集合或Hadoop数据集上创建,利用Context对象的API创建RDD,可以将HBase表、MySQL表、本地文件等数据映射成RDD; 在RDD之上进行Transformation和Action Spark提供了多种Transformation和Action函数 返回...原创 2019-01-21 22:59:40 · 1033 阅读 · 0 评论 -
Spark学习笔记:Spark SQL
背景 从Spark 1.0开始,Spark SQL成为Spark生态系统一员,是专门处理结构化数据(比如DB, Json)的Spark组件。它提供了2种操作数据的方式:1)SQL Queries;2)DataFrames/Datasets API。Spark SQL = Schema + RDD,RDD可以表达所有的数据格式(包括结构化和非结构化), Spark SQL只表达结构化的数据。 Spa...原创 2019-01-23 07:49:42 · 1078 阅读 · 0 评论