![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
基本架构
syyyyyyyyyyyyyyh
这个作者很懒,什么都没留下…
展开
-
Spark中RDD算子概述及创建RDD
RDD概述 什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将数据缓存在内存中,后续的查询能够重用这些数据,这极大地提升了查询速度. Dataset:一个数据集合,用于存放数据的。 Distributed:RDD中的数据是分布式存储的,可用于分布式计算。 Re.原创 2020-09-18 08:27:44 · 219 阅读 · 0 评论 -
Scala快速入门/插值器/数据类型
Scala Scala(Scala Language的简称)语言是一种能够执行于JVM和.Net平台之上的通用编程语言。既可用于大规模应用程序开发,也可用于脚本编程,它由Martin Odersk于2001开发。2004年开始程序执行在JVM与.Net平台之上。由于其简洁、优雅、类型安全的编程模式而受到关注。 在Scala的创建之初,并没有怎么引起重视,随着Apache Spark和Apache Kafka这样基于Scala的大数据框架的崛起,Scala逐步映入大数据从业者的眼帘。 Scala 是一原创 2020-09-17 15:27:39 · 155 阅读 · 0 评论 -
Flume定义/事务/Agent内部原理
Flume定义 Flume是一个高可用,高可靠,分布式的海量日志采集,聚合和传输的系统。Flume基于流式架构,灵活简单 主要作用 Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS Flume基础架构中的组件 1.Agent Agent是一个JVM进程,它以时间的形式将数据从源头送至目的 Agent主要3个部分组成,Source,Channel,Sink 2.Source Source是负责接收数据到Flume Agent的组件原创 2020-09-17 07:43:07 · 183 阅读 · 0 评论 -
HBase模型RegionServer架构及Region/Store/StoreFile/Hfile之间的关系
数据模型 1.Name Space 命名空间,类似于关系型数据库的database概念,每个命名空间下有多个表。HBase两个自带的命名空间,分别是hbase和default,hbase中存放的是HBase内置的表,default表是用户默认使用的命名空间 2.Table Table类似于关系型数据库的表概念。不同的是,HBase定义表时只需要声明列族即可,不需要声明具体的列。这意味着,往HBase写入数据时,字段可以动态、按需指定。因此,和关系型数据库相比,HBase能够轻松应对字段变更原创 2020-09-16 08:34:45 · 1220 阅读 · 0 评论