spark
JustSleep
这个作者很懒,什么都没留下…
展开
-
spark内核解析
1、spark部署模式Spark的运行模式取决于传递给SparkContext的MASTER环境变量的值,目前包括:本地运行:local、local[K]、local[*]Standalone模式运行:spark://HOST:PORTMesos集群上运行:mesos://HOST:PORTYarn集群上运行:yarn-client:Driver进程在本地,Executor...原创 2020-03-19 15:17:24 · 164 阅读 · 0 评论 -
SparkStreaming
1、Spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:map、reduce、join、window等进行运算。而结果也能保存在很多地方,如HDFS,数据库等。和Spark基于RDD的概念很相似,Spark Strea...原创 2020-03-17 16:43:33 · 142 阅读 · 0 评论 -
SparkSQL
1、Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所有Spark SQL的应运而生,它是将Spark SQL转换成...原创 2020-03-16 21:23:23 · 198 阅读 · 0 评论 -
SparkCore解析2
1、RDD任务划分RDD任务切分分为:Application、Job、Stage和Task1)Application:初始化一个SparkContext即生成一个Application2)Job:一个Action算子就会生成一个Job3)Stage:根据RDD之间的依赖关系的不同将Job划分成不同的Stage,遇到一个宽依赖则划分一个Stage。4)Task:Stage是一个T...原创 2020-03-16 18:21:04 · 136 阅读 · 0 评论 -
SparkCore解析1
1、RDD概述RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。2、RDD属性、特点RDD表示只读的分区的数据集,对RDD进行改动,只能通过RDD的转换操作,由一个RDD得到一个新的RDD,新的RDD包含了从其他RDD衍生所必需的信息。RDDs之...原创 2020-03-16 10:37:20 · 103 阅读 · 0 评论 -
scala语言——集合
基本介绍1、Scala同时支持不可变集合和可变集合 ,Scala默认采用不可变集合,对于几乎所有的集合类,Scala都同时提供了可变(mutable)和不可变(immutable)的版本Scala的集合有三大类:序列Seq、集Set、映射Map,所有的集合都扩展自Iterable特质不可变集合:scala.collection.immutable可变集合: scala.colle...原创 2020-03-15 11:28:37 · 137 阅读 · 0 评论 -
scala语言——函数式编程
函数式编程基础1、在scala中,方法和函数几乎可以等同,只是函数的使用方式更加的灵活多样 [方法转函数]。函数式编程充分利用函数、 支持的函数的多种使用方式。函数是一等公民,像变量一样,既可以作为函数的参数使用,也可以将函数赋值给一个变量. ,函数的创建不用依赖于类或者对象。2、函数/方法的定义def 函数名 ([参数名: 参数类型], ...)[[: 返回值类型] =]...原创 2020-03-14 21:07:56 · 154 阅读 · 0 评论 -
scala语言——基本语法
1、输出的三种方式字符串通过+号连接(类似java) println("name=" + name + " age=" + age + " url=" + url)printf用法 (类似C语言)字符串通过 % 传值。(格式化输出) printf("name=%s, age=%d, url=%s \n", name, age, url)字符串插值:通过$引用(类似PHP...原创 2020-03-14 15:41:54 · 268 阅读 · 0 评论 -
spark基础解析
1、概述Spark是一种基于内存的快速、通用、可扩展的大数据分析引擎。2、内置模块Spark CoreSpark SQL:通过Spark SQL,我们可以使用 SQL或者Apache Hive版本的SQL方言(HQL)来查询数据Spark Streaming:是Spark提供的对实时数据进行流式计算的组件集群管理器:包括Hadoop YARN、Apache Mesos,以及...原创 2020-03-14 10:22:11 · 170 阅读 · 0 评论