大数据优就业——第三阶段(spark生态系统体系架构)
文章平均质量分 93
spark生态系统体系架构
dogedong
这个作者很懒,什么都没留下…
展开
-
Spark阶段总结
kafka消费数据同一时刻,kafka当中数据只能被一个消费者组下面的一个消费者所消费。kafka消费者在消费数据的时候,都是分组别的。不同组的消费不受影响,相同组内的消费,需要注意,如果partition有3个,消费者有3个,那么便是每一个消费者消费其中一个partition对应的数据;如果有2个消费者,此时一个消费者消费其中一个partition数据,另一个消费者消费2个partition的数据。如果有超过3个的消费者,同一时间只能最多有3个消费者能消费得到数据,kaf.原创 2021-11-17 23:50:41 · 2091 阅读 · 0 评论 -
Day73_Spark核心原理加强
一、Spark核心原理加强●课程说明高能预警Spark源码从1.x的40w行发展到现在的近100w行,有1400多位大牛贡献了代码。整个Spark框架源码是一个巨大的工程,(一)Spark专业术语定义Application/App:Spark应用程序指的是用户编写的Spark应用程序/代码,包含了Driver功能代码和分布在集群中多个节点上运行的Executor代码。Spark应用程序,由一个或多个作业JOB组成(因为代码中可能会调用多次Action),如下图所示:.原创 2021-10-27 22:55:09 · 184 阅读 · 0 评论 -
Day72_Spark-streaming(二)
(三)、SparkStreaming算子1、常见的算子操作由于Streaming底层是基于Core来实现的,所以其很多算子相似于RDD,如下图1-11所示。这里我们主要学习三个算子,transform,updateByKey,window函数。2、Transform(1)概述transform是一个transformation算子,转换算子。怎么去理解呢?DStream上述提供的所有的transformation操作,都是DStream-2-DStream操作,没有一个DS.原创 2021-10-26 22:15:34 · 239 阅读 · 0 评论 -
Day71_Spark-streaming(一)
SparkStreaming基础架构 课程大纲 课程内容 学习效果 掌握目标 SparkStreaming简介 流式计算 了解 SparkStreaming简介 SparkStreaming API 整合Kafka 掌握原创 2021-10-26 08:59:57 · 278 阅读 · 0 评论 -
Day70_SparkSQL(二)
(二)、SparkSQL与Hive整合SparkSQL和Hive的整合,是一种比较常见的关联处理方式,SparkSQL加载Hive中的数据进行业务处理,同时将计算结果落地回Hive中。整合需要注意的地方1、需要引入hive的hive-site.xml,添加classpath目录下面即可,或者放到$SPARK_HOME/conf2、为了能够正常解析hive-site.xml中hdfs路径,需要将hdfs-site.xml和core-site.xml到classpath下面添加到clas原创 2021-10-24 21:34:21 · 273 阅读 · 0 评论 -
Day69_SparkSQL(一)
课程大纲 课程内容 学习效果 掌握目标 SparkSQL简介 SparkSQL简介 了解 SparkSQL特点 SparkSQL编程 编程模型 掌握 API操作 掌握 ...原创 2021-10-21 23:16:43 · 624 阅读 · 0 评论 -
Day68_Spark(三)Spark RDD的分区与依赖关系
课程大纲 课程内容 学习效果 掌握目标 RDD数据分区 分区策略 掌握 自定义分区 掌握 RDD依赖关系 依赖关系 掌握 DAG有向无环图 掌握 ...原创 2021-10-21 00:50:06 · 486 阅读 · 1 评论 -
Day67_Spark(二)Spark RDD操作
课程大纲 课程内容 学习效果 掌握目标 Spark执行流程 Wordcount执行流程 掌握 Spark作业提交流程 掌握 RDD操作 RDD初始化 掌握 RDD操作 ...原创 2021-10-20 00:53:31 · 1041 阅读 · 0 评论 -
Spark笔记
Spark基础核心知识什么是RDD?RDD有什么特点?能否携带数据?RDD:叫做弹性分布式数据集特点:不可变,可分区,里面的元素可以并行计算的集合。不能携带数据,类似于java当中的接口,携带的是元数据。依赖关系窄依赖:父RDD的一个分区只能被子RDD的一个分区所依赖=》独生子女宽依赖:父RDD的一个分区会被子RDD的多个分区所依赖=》超生子女分区方式非key,value对的数据,分区方式为None;Key,value对的数据,默认分区方式也为None,但是,可以指定分..原创 2021-10-19 09:05:43 · 138 阅读 · 0 评论 -
Day66_Spark(一)Spark基础核心知识
SparkCore课堂讲义第一讲 Spark基础核心知识 课程大纲 课程内容 学习效果 掌握目标 Spark简介 大数据生态发展 了解 什么是Spvark Spark开发环境 Spark standalone 掌握原创 2021-10-19 09:01:12 · 436 阅读 · 0 评论 -
Day64_Kafka(二)
第二讲 Kafka架构 课程大纲 课程内容 学习效果 掌握目标 Kafka架构 Kafka就 掌握 Kafka ack Exactly once Kafka log Kafka log 掌握原创 2021-10-18 11:19:17 · 464 阅读 · 0 评论 -
Day63_Kafka(一)
第一讲 Kafka基础操作 课程大纲 课程内容 学习效果 掌握目标 Kafka简介 消息队列 掌握 Kafka简介 Kafka分布式环境 Kafka操作 Kafka shell 掌握原创 2021-10-13 23:44:34 · 233 阅读 · 0 评论 -
Day62_Scala(五)
第五讲 Scala Actor与Akka 课程大纲 课程内容 学习效果 掌握目标 类型参数 泛型类 掌握 泛型方法 掌握 协变与逆变 了解 隐式转换 隐式转换函数原创 2021-10-12 15:43:50 · 62 阅读 · 0 评论 -
Day61_Scala(四)
第四讲 Scala函数式编程(下)一、Scala集合体系(一)、Scala集合体系概述1、Scala中的集合体系主要包括:Iterable、Seq(IndexSeq)、Set(SortedSet)、Map(SortedMap)。其中Iterable是所有集合trait的根trait。实际上Seq、Set、和Map都是子trait。 Seq:是一个有先后次序的值的序列,比如数组或列表。IndexSeq允许我们通过整形的下标快速的访问任意元素。举例来说,ArrayBuffer是带下标的,..原创 2021-10-11 22:48:36 · 170 阅读 · 0 评论 -
Day60_Scala(三)
第三讲 Scala集合入门和函数式编程(上)一、Scala集合入门 scala的集合分为了两类,一类是可变的集合(集合可以执行增删改查操作),另一类是不可变集合(集合元素在初始化的时候确定,后续只能进行查,有的可以进行修改,有的不可以)。二者可能名称一样,但是在不同的包下面,对应的包为:scala.collection.mutable和scala.collection.immutable。 scala默认使用的集合,或者默认导入的包是immutable。 说明:这...原创 2021-10-10 21:28:37 · 625 阅读 · 0 评论 -
Day58_scala(一)
一、scala开发环境(一)Scala安装与验证1、Scala下载综合后面学习的Kafka、Spark、Flink等对Scala版本的要求,我们这里选择Scala-2.11.12版本来为各位同学进行讲述Scala。下载地址:Scala 2.11.12 | The Scala Programming Language,内容如下图1-2-1所示。这里我们下载图1-2-1中括起来的两个版本,一个在Window下面安装,一个在Linux环境中安装。2、Scala安装要求(1.原创 2021-09-29 23:47:30 · 431 阅读 · 0 评论 -
Day59_scala(二)
第二讲 Scala面向对象一、类的基本操作(一)、类的定义1、类的定义 类或者类型,就是对客观的一类事物的抽象。用一个class关键字来描述,在这个类中可以拥有这一类事物的属性,行为等等。 或者说就是用计算机的语言来描述的一类事物,就是类,在java,scala中都是用关键字class来标识。 因为类是对一类事物的抽象,所以不具备具体的行为执行能力,要想完成具体的操作,就需要使用该类的实例或者对象。//创建scala中的一个类class Dog {...原创 2021-10-08 19:34:47 · 98 阅读 · 0 评论