![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop知识点
文章平均质量分 69
龙技术
一篇诗,一斗酒,一曲长歌,一剑天涯
展开
-
Spark知识点
SparkSpark是用于大规模数据处理的统一分析引擎RDD:弹性分布式数据集,认为是列表listSpark框架将要处理的数据封装到集合RDD中,调用RDD中函数处理数据RDD数据可以放到内存中,内存不足可以放到磁盘中Spark四大特点:运行速度快易用性好通用性强随处运行Spark处理数据与mapreduce处理数据相比,有如下两个不同点:Spark处理数据时,可以将中间处理结果数据存储到内存中,而mapreduce是将中间处理结果数据存储到磁盘中Spark job调度以DAG原创 2021-12-13 11:49:46 · 1657 阅读 · 0 评论 -
Hive知识点
HiveHive简介:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能本质:是将sql转换为mapreduce程序主要用途:用来做离线数据分析,比直接用MapReduce开发效率更高元数据存储在:mysql/derby这种关系型数据库Hive和hadoop和MapReduce的关系:Hive利用HDFS存储数据,利用MapReduce查询分析数据。Hive的metadata、metastore:metadata:元数据metas原创 2021-12-04 19:36:28 · 1375 阅读 · 0 评论 -
YARN知识点
YARNYARN是一种新的Hadoop资源管理器,它一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度理解:可以把yarn理解为相当与一个分布式的操作系统平台,而mapreduce等运算程序则相当于运行于操作系统之上的应用程序,YARN为这些程序提供运算所需的资源(内存,cpu)yarn三大组件介绍(角色):ResourceManager:负责整个集群的资源管理和分配,是一个全局的资源管理系统;NodeManager以心跳的方式向ResourceManager汇报资源使用情原创 2021-12-04 15:00:06 · 1279 阅读 · 0 评论 -
MapReduce知识点
MapReduceMapReduce核心思想:分而治之分而治之就是:把一个复杂的问题按一定的“分解”方法分为规模较小的若干部分,然后逐个解决,分别找出各部分的解,再把各个部分的解组成整个问题的解MapReduce过程:map阶段:安照块进行分片每个分片会对应一个map,运行map进行数据的进一步分割运行了map代码(将数据转换为键值对形式)Shuffing阶段:分区排序规约合并reduce阶段:reduce运行reduce代码数据展示...原创 2021-12-04 14:59:28 · 228 阅读 · 0 评论 -
HDFS知识点
HDFSHDFS介绍:HDFS就是hadoop分布式文件系统,是hadoop核心组件之一,作为最底层的分布式存储服务而存在。HDFS解决的问题就是大数据存储hdfs的垃圾桶机制:垃圾桶机制解析:每一个文件系统都会有垃圾桶机制,便于将删除的数据回收到垃圾桶里面去,避免某些误操作删除一些重要文件,回收到垃圾桶里里面的资料数据,都可以进行恢复。垃圾桶机制配置:HDFS的垃圾回收的默认配置属性为0,也就是说,如果不小心误删除了某文件,那么这个文件就不可恢复的,为了解决这个问题,就可以利用垃圾桶机制。原创 2021-12-04 14:58:28 · 938 阅读 · 0 评论 -
Zookeeper知识点
Zookeeper作用:分布式协调服务(监听hadoop是否宕机,宕机就使用另一个集群的hadoop)在数仓领域的场景,协调hadoop服务实现高可用每个zk服务里面存储的是状态信息Zookeeper特性:全局数据一致:集群中每个服务器保存一份相同的数据副本,client无论连接到哪个服务器,展示的数据都是一致的,这是最重要的特征;(每个zk服务之间数据是同步的,相同的)可靠性:如果消息被其中一台服务器接收,那么将被所有的服务器接收;(每个zk服务里存储的状态信息是一样的)顺序性:在had原创 2021-12-04 14:56:57 · 766 阅读 · 0 评论