大数据
薛之轩
这个作者很懒,什么都没留下…
展开
-
Spark知识点总结
一、架构图 从物理部署层面上来看,Spark主要分为两种类型的节点,Master节点和Worker节点,Master节点主要运行集群管理器的中心化部分,所承载的作用是分配Application到Worker节点,维护Worker节点,Driver,Application的状态。Worker节点负责具体的业务运行。 二、Spark Core RDD概念 RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可原创 2020-12-08 14:43:51 · 731 阅读 · 0 评论 -
Flink基础
Flink核心概念 概念 Streams:可分为有界流和无界流 State:状态指的是在进行流式计算中的信息。一般用于容错和持久化,流式计算本质上是增量计算,需要不断地查询过去的状态。并且状态的持久化也是集群出现Fail-over的情况下自动重启的前提条件。 Time:支持Event Time、Processing Time、Ingestion Time语义,时间是判断业务状态是否滞后和延迟的重要依据 API:Flink提供了不同级别的抽象来支持流式或批处理程序的开发,由上而下可分为SQL/Table A原创 2020-12-08 14:47:10 · 216 阅读 · 0 评论