S_k
文章平均质量分 88
清风徐来水波不兴fate
这个作者很懒,什么都没留下…
展开
-
sp————sql2.0
尚硅谷大数据技术之SparkSQL (作者:尚硅谷大数据研发部) 版本:V2.0 Spark SQL概述 什么是Spark SQL Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。 与基本的Spark RDD API不同,Spark SQL的抽象数据类型为Spark提供了关于数据结构和正在执行的计算的更多信息。 在内部,Spark SQL使用这些额外的信息去做一些额外的优化,有多种方式与Spark SQL进行交互,比如: SQL和Data原创 2021-12-23 00:43:03 · 211 阅读 · 0 评论 -
C————lickhouse
第1章 ClickHouse入门 ClickHouse 是俄罗斯的Yandex于2016年开源的列式存储数据库(DBMS),使用C++语言编写,主要用于在线分析处理查询(OLAP),能够使用SQL查询实时生成分析数据报告。 ClickHouse的特点 1.1.1 列式存储 以下面的表为例: Id Name Age 1 张三 18 2 ..原创 2021-12-23 00:36:17 · 677 阅读 · 0 评论 -
h——base
第1章 HBase简介 1.1 HBase定义 HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。 1.2HBase数据模型 逻辑上,HBase的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从HBase的底层物理存储结构(K-V)来看,HBase更像是一个multi-dimensional map。 1.2.1 HBase逻辑结构 1.2.2 HBase物理存储结构 1.2.3数据模型 1)Name Space 命名空间,类似于关系型数据...原创 2021-12-23 00:34:03 · 572 阅读 · 0 评论 -
f数--仓
环境准备 1.1虚拟机准备 克隆三台虚拟机(hadoop101、hadoop102、hadoop103),配置好对应主机的网络IP、主机名称、关闭防火墙。 设置hadoop102、hadoop103、hadoop104的主机对应内存分别是:4G、4G、4G 1.2配置免密登录 配置ssh免密登录 [root@hadoop101 ~]# vim /etc/hosts 127.0.0.1 localhost localhost.localdomain localhost4 localhost4...原创 2021-12-23 00:31:16 · 2510 阅读 · 0 评论 -
S_P_A_R_K_性能调优
Spark性能调优 常规性能调优 常规性能调优一:最优资源配置 Spark性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策略。 资源的分配在使用脚本提交Spark任务时进行指定,标准的Spark任务提交脚本如代码清单2-1所示: 代码清单2-1 标准Spark提交脚本 /usr/opt/modules/spark/bin/spark-submit \ --clas...原创 2021-12-20 22:23:28 · 164 阅读 · 0 评论 -
S_P_A_R_K_入门
第1章 Spark概述 1.1 什么是Spark Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。 1.2 Spark历史 1.3 Spark内置模块 Spark Core:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet,简称RDD)的API定义。 Spark SQL:是Spark用来操作结构化数据的程序包。通过Spa..原创 2021-12-20 22:21:44 · 291 阅读 · 0 评论 -
S_P_A_R_K_stream
Spark Streaming概述 离线和实时概念 数据处理的延迟 离线计算 就是在计算开始前已知所有输入数据,输入数据不会产生变化,一般计算量级较大,计算时间也较长。例如今天早上一点,把昨天累积的日志,计算出所需结果。最经典的就是Hadoop的MapReduce方式; 实时计算 输入数据是可以以序列化的方式一个个输入并进行处理的,也就是说在开始的时候并不需要知道所有的输入数据。与离线计算相比,运行时间短,计算量级相对较小。强调计算过程的时间要短,即所查当下给出结果。 批量和流式概念..原创 2021-12-20 22:19:27 · 174 阅读 · 0 评论 -
S_P_A_R_K_SQL
尚硅谷大数据技术之SparkSQL (作者:尚硅谷大数据研发部) 版本:V2.0 Spark SQL概述 什么是Spark SQL Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。 与基本的Spark RDD API不同,Spark SQL的抽象数据类型为Spark提供了关于数据结构和正在执行的计算的更多信息。 在内部,Spark SQL使用这些额外的信息去做一些额外的优化,有多种方式与Spark SQL进行交互,比如: SQL和Data原创 2021-12-20 22:16:53 · 167 阅读 · 0 评论 -
S_P_A_R_K_core
尚硅谷大数据技术之SparkCore (作者:尚硅谷大数据研发部) 版本:V2.0 RDD概述 RDD引入之IO流 什么是RDD RDD特性 A list of partitions 多个分区,分区可以看成是数据集的基本组成单位 对于 RDD 来说,每个分区都会被一个计算任务处理, 并决定了并行计算的粒度。 用户可以在创建 RDD 时指定 RDD 的分区数, 如果没有指定, 那么就会采用默认值。 默认值就是程序所分配到的 CPU Core 的数目. 每个.原创 2021-12-20 22:14:34 · 164 阅读 · 0 评论 -
s_p_a_r_k_内核
Spark内核概述 Spark内核泛指Spark的核心运行机制,包括Spark核心组件的运行机制、Spark任务调度机制、Spark内存管理机制、Spark核心功能的运行原理等,熟练掌握Spark内核原理,能够帮助我们更好地完成Spark代码设计,并能够帮助我们准确锁定项目运行过程中出现的问题的症结所在。 Spark核心组件回顾 1.1.1 Driver Spark驱动器节点,用于执行Spark任务中的main方法,负责实际代码的执行工作。Driver在Spark作业执行时主要负责: 将...原创 2021-12-20 22:07:43 · 224 阅读 · 0 评论