![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
基本架构
syyyyyyyyyyyyyyh
这个作者很懒,什么都没留下…
展开
-
Spark中RDD算子概述及创建RDD
RDD概述什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将数据缓存在内存中,后续的查询能够重用这些数据,这极大地提升了查询速度.Dataset:一个数据集合,用于存放数据的。Distributed:RDD中的数据是分布式存储的,可用于分布式计算。Re.原创 2020-09-18 08:27:44 · 216 阅读 · 0 评论 -
Scala快速入门/插值器/数据类型
ScalaScala(Scala Language的简称)语言是一种能够执行于JVM和.Net平台之上的通用编程语言。既可用于大规模应用程序开发,也可用于脚本编程,它由Martin Odersk于2001开发。2004年开始程序执行在JVM与.Net平台之上。由于其简洁、优雅、类型安全的编程模式而受到关注。在Scala的创建之初,并没有怎么引起重视,随着Apache Spark和Apache Kafka这样基于Scala的大数据框架的崛起,Scala逐步映入大数据从业者的眼帘。Scala 是一原创 2020-09-17 15:27:39 · 153 阅读 · 0 评论 -
Flume定义/事务/Agent内部原理
Flume定义Flume是一个高可用,高可靠,分布式的海量日志采集,聚合和传输的系统。Flume基于流式架构,灵活简单主要作用Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFSFlume基础架构中的组件1.AgentAgent是一个JVM进程,它以时间的形式将数据从源头送至目的Agent主要3个部分组成,Source,Channel,Sink2.SourceSource是负责接收数据到Flume Agent的组件原创 2020-09-17 07:43:07 · 180 阅读 · 0 评论 -
HBase模型RegionServer架构及Region/Store/StoreFile/Hfile之间的关系
数据模型1.Name Space命名空间,类似于关系型数据库的database概念,每个命名空间下有多个表。HBase两个自带的命名空间,分别是hbase和default,hbase中存放的是HBase内置的表,default表是用户默认使用的命名空间2.TableTable类似于关系型数据库的表概念。不同的是,HBase定义表时只需要声明列族即可,不需要声明具体的列。这意味着,往HBase写入数据时,字段可以动态、按需指定。因此,和关系型数据库相比,HBase能够轻松应对字段变更原创 2020-09-16 08:34:45 · 1216 阅读 · 0 评论