大数据技术
roo_1
这个作者很懒,什么都没留下…
展开
-
ETL过程
ETL讲解原创 2020-11-02 20:50:28 · 92 阅读 · 0 评论 -
spark常见问题
spark常见问题RDD的弹性表现在哪几个方面史上最全的spark面试题spark运行流程 RDD的弹性表现在哪几个方面 参考1: RDD的弹性体现在计算方面,当Spark进行计算时,某一阶段出现数据丢失或者故障,可以通过RDD的血缘关系就行修复。 1、内存的弹性:内存与磁盘的自动切换 2、容错的弹性:数据丢失可以自动恢复 3、计算的弹性:计算出错重试机制 4、分片的弹性:根据需要重新分片 参考2: 1.自动进行内存和磁盘切换 2.基于lineage的高效容错 3.task如果失败会特定次数的重试 4.st原创 2020-11-02 20:42:01 · 220 阅读 · 0 评论 -
spark常用的算子
spark常用的算子原创 2020-11-02 20:37:37 · 72 阅读 · 0 评论 -
数据仓库
目录一、数据库和数据仓库有区别二、数据仓库分层1.源数据层ODS2.数据仓库层DW3.数据应用层APP三、星型模型、雪花模型、星座模型数据仓库建模四、数据仓库和数据集市 一、数据库和数据仓库有区别 数据库:传统的关系型数据库的主要应用,主要是基本的、日常的事务处理, 数据仓库:数据仓库系统的主要应用主要是OLAP 数据库和数据仓库都是存储数据的地方,关键是存储数据的区别。数据仓库准确而言是一个逻辑的概念,依托RDBMS作为数据仓库平台。数据库存储的是原始数据,没经过任何加工;而数据仓库是为了满足数据分析需原创 2020-11-02 20:22:39 · 315 阅读 · 0 评论 -
Hadoop分布式文件系统——HDFS
hdfs原创 2020-10-23 15:28:42 · 163 阅读 · 0 评论 -
Spark学习之SparkSQL
一、认识SparkSQL 1.1 什么是SparkSQL spark SQL是spark的一个模块,主要用于进行结构化数据的处理。它提供的最核心的编程抽象就是DataFrame。 1.2 SparkSQL的作用 提供一个编程抽象(DataFrame) 并且作为分布式 SQL 查询引擎 1.3 运行原理 将 Spark SQL 转化为 RDD, 然后提交到集群执行 1.4 特点 (1)容易整合 (2)统一的数据访问方式 (3)兼容 Hive (4)标准的数据连接 1.5 SparkSession SparkS原创 2020-10-03 17:27:52 · 150 阅读 · 0 评论 -
Spark基础
Spark学习一 什么是spark 是大规模数据处理的统一分析引擎,通用内存并行计算框架。 spark的组成 ** SparkCore** :实现spark的基本功能,包含任务调度、内存管理等模块。将分布式数据抽象为弹性分布式数据集(RDD),并为运行在其上的上层组件提供API。RDD表示分布在多个计算节点上可以并行操作的元素集合。 ** SparkSQL** :Spark Sql 是Spark来操作结构化数据的程序包,可以让我使用SQL语句的方式来查询数据,Spark支持 多种数据源,包含Hive表,pa原创 2020-10-03 13:58:41 · 186 阅读 · 0 评论