Hadoop知识点
文章平均质量分 69
龙技术
一篇诗,一斗酒,一曲长歌,一剑天涯
展开
-
Spark知识点
Spark Spark是用于大规模数据处理的统一分析引擎 RDD:弹性分布式数据集,认为是列表list Spark框架将要处理的数据封装到集合RDD中,调用RDD中函数处理数据 RDD数据可以放到内存中,内存不足可以放到磁盘中 Spark四大特点: 运行速度快 易用性好 通用性强 随处运行 Spark处理数据与mapreduce处理数据相比,有如下两个不同点: Spark处理数据时,可以将中间处理结果数据存储到内存中,而mapreduce是将中间处理结果数据存储到磁盘中 Spark job调度以DAG原创 2021-12-13 11:49:46 · 1686 阅读 · 0 评论 -
Hive知识点
Hive Hive简介: Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能 本质:是将sql转换为mapreduce程序 主要用途:用来做离线数据分析,比直接用MapReduce开发效率更高 元数据存储在:mysql/derby这种关系型数据库 Hive和hadoop和MapReduce的关系:Hive利用HDFS存储数据,利用MapReduce查询分析数据。 Hive的metadata、metastore: metadata:元数据 metas原创 2021-12-04 19:36:28 · 1393 阅读 · 0 评论 -
YARN知识点
YARN YARN是一种新的Hadoop资源管理器,它一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度 理解:可以把yarn理解为相当与一个分布式的操作系统平台,而mapreduce等运算程序则相当于运行于操作系统之上的应用程序,YARN为这些程序提供运算所需的资源(内存,cpu) yarn三大组件介绍(角色): ResourceManager: 负责整个集群的资源管理和分配,是一个全局的资源管理系统; NodeManager以心跳的方式向ResourceManager汇报资源使用情原创 2021-12-04 15:00:06 · 1284 阅读 · 0 评论 -
MapReduce知识点
MapReduce MapReduce核心思想:分而治之 分而治之就是:把一个复杂的问题按一定的“分解”方法分为规模较小的若干部分,然后逐个解决,分别找出各部分的解,再把各个部分的解组成整个问题的解 MapReduce过程: map阶段: 安照块进行分片 每个分片会对应一个map,运行map进行数据的进一步分割运行了map代码(将数据转换为键值对形式) Shuffing阶段: 分区 排序 规约 合并 reduce阶段: reduce运行reduce代码 数据展示 ...原创 2021-12-04 14:59:28 · 235 阅读 · 0 评论 -
HDFS知识点
HDFS HDFS介绍: HDFS就是hadoop分布式文件系统,是hadoop核心组件之一,作为最底层的分布式存储服务而存在。 HDFS解决的问题就是大数据存储 hdfs的垃圾桶机制: 垃圾桶机制解析: 每一个文件系统都会有垃圾桶机制,便于将删除的数据回收到垃圾桶里面去,避免某些误操作删除一些重要文件,回收到垃圾桶里里面的资料数据,都可以进行恢复。 垃圾桶机制配置: HDFS的垃圾回收的默认配置属性为0,也就是说,如果不小心误删除了某文件,那么这个文件就不可恢复的,为了解决这个问题,就可以利用垃圾桶机制。原创 2021-12-04 14:58:28 · 993 阅读 · 0 评论 -
Zookeeper知识点
Zookeeper 作用: 分布式协调服务(监听hadoop是否宕机,宕机就使用另一个集群的hadoop) 在数仓领域的场景,协调hadoop服务实现高可用 每个zk服务里面存储的是状态信息 Zookeeper特性: 全局数据一致:集群中每个服务器保存一份相同的数据副本,client无论连接到哪个服务器,展示的数据都是一致的,这是最重要的特征;(每个zk服务之间数据是同步的,相同的) 可靠性:如果消息被其中一台服务器接收,那么将被所有的服务器接收;(每个zk服务里存储的状态信息是一样的) 顺序性:在had原创 2021-12-04 14:56:57 · 780 阅读 · 0 评论