
Hadoop
文章平均质量分 94
Hadoop大数据生态圈组件原理介绍。
大白兔黑又黑
这个作者很懒,什么都没留下…
展开
-
Hive小技巧和调优
作为Hadoop生态圈中的重要组件,Hive在数据分析、处理方面扮演着异常重要的角色。另外,Hive作为大数据组件,处理的数据量往往很大,合适的优化技巧在运行效率方面往往可以起到非常好的效果。1、筛选重复记录这是在业务中经常遇到的一个问题,主要场景往往是,同一条记录被多次插入,或者同一个id对应多条记录,但是只需要其中一条就足矣。(1)对于重复记录,如果是数据去重,自然是可以使用dis...原创 2020-03-26 15:49:48 · 1212 阅读 · 0 评论 -
Hadoop笔记(5)HA和联邦机制
https://www.cnblogs.com/qcloud1001/p/7693476.html原创 2021-04-25 22:15:41 · 1529 阅读 · 0 评论 -
Hadoop笔记(4)yarn架构介绍
7. yarn资源管理者resourcemanagernodemanagerHadoop 中包含了两个独立的主从架构(Master / Slave)的集群:HDFS 和 YARN。HDFS的主节点的守护进程是:NameNode,从节点的守护进程是 DataNode。YARN的主节点的守护进程是:ResourceManager,从节点的守护进程是 NodeManagernamenode存储所有数据的元数据信息,那么必然要感知所有datanode的状态,一旦datanode上线或者下线,就.原创 2021-04-09 17:24:42 · 670 阅读 · 1 评论 -
Hadoop笔记(3)mapreduce原理和实践
6. mapreduce内部封装了mapper类和reduce类7. yarn资源管理者resourcemanagernodemanagerHadoop 中包含了两个独立的主从架构(Master / Slave)的集群:HDFS 和 YARN。HDFS的主节点的守护进程是:NameNode,从节点的守护进程是 DataNode。YARN的主节点的守护进程是:ResourceManager,从节点的守护进程是 NodeManagernamenode存储所有数据的元数据信息,那么必.原创 2021-04-06 16:37:27 · 503 阅读 · 0 评论 -
Hadoop笔记(2)hdfs
在前一篇文章中,我们简略宏观的介绍了Hadoop的整体技术架构,并介绍了Hadoop的三个主要主件:负责存储的hdfs、负责计算的mapreduce、负责调度的yarn。从存储的角度划分,Hadoop集群分为两种:存储数据的datanode和维护元数据的namenode,当然还有secondarynamenode协助namenode一起维护元数据信息。hdfs不适合存储小文件,例如图片信息,大量身份证照片并不适合直接存储在hdfs上,维护较多的元数据信息HDFS文件系统会给客户端提供一个统一的抽象目原创 2021-03-25 18:56:02 · 361 阅读 · 1 评论 -
Hadoop笔记(1)Hadoop整体架构
筹谋大数据笔记久矣,然迟迟未能下笔,皆以无暇忙碌为由迟矣。余终悟之:明日复明日,明日成蹉跎。九层之台,起于累土。本系列文章也是以Apache Hadoop生态圈为主介绍大数据的相关知识,毕竟是主流应用,本文不会介绍详细的技术干货(从下一篇开始),主要介绍Hadoop的设计原因,在设计过程中要考虑的问题、注意的问题以及解决方法,正所谓知其然,更要知其所以然。本文的主要目的是为了先建立一个对Hadoop的整体认知,有助于后面更好的理解具体细节。话不多说,let's go。大数据(BigData)技术,很显然原创 2021-03-09 13:11:59 · 406 阅读 · 2 评论 -
ZooKeeper原理和实践
一、什么是ZooKeeper ZooKeeper最早起源于雅虎研究院的一个研究小组。在当时,研究人员发现,在雅虎内部很多大型系统基本都需要依赖一个类似的系统来进行分布式协调,但是这些系统往往都存在分布式单点问题。所以,雅虎的开发人员就试图开发一个通用的无单点问题的分布式协调框架,以便让开发人员将精力集中在处理业务逻辑上。 读完上面这段话,是不是还是不明白。但是可以...原创 2021-04-25 22:17:02 · 397 阅读 · 0 评论