Hadoop
文章平均质量分 95
Hadoop笔记
王劭阳
这个作者很懒,什么都没留下…
展开
-
Hadoop笔记01-Hadoop-入门
Hadoop概述Hadoop是什么Hadoop是一个由Apache基金会开发的分布式系统基础架构Hadoop主要解决:海量数据的存储、海量数据的分析计算广义来说,Hadoop是指Hadoop生态圈,还包括HBase、Hive等Hadoop发展历史Hadoop的创始人是Doug Cutting,为了实现与Google类似的全文搜索功能,他在Lucene框架基础上进行优化升级,查询引擎和索引引擎。Lucene模仿谷歌开发出了微型版Nutch。2003-2004年,Google开源部分GFS原创 2022-04-11 23:26:34 · 1476 阅读 · 0 评论 -
Hadoop笔记02-Hadoop-HDFS
HDFS概述HDFS产出背景及定义随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的使用场景:适合一次写入,多次读出的场景原创 2022-04-11 23:28:50 · 489 阅读 · 0 评论 -
Hadoop笔记03-Hadoop-MapReduce
MapReduce概述MapReduce定义MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。MapReduce优缺点优点MapReduce易于编程只需要简单实现接口,就可以完成一个分布式程序,程序可以部署到大量廉价的PC机器上运行。良好的扩展性当计算机资源不足的时候,可以通过简单的增加机器的方式来提高原创 2022-04-11 23:30:04 · 530 阅读 · 0 评论 -
Hadoop笔记04-Hadoop-Yarn
Yarn资源调度器Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。Yarn基础架构YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。Yarn工作机制MapReduce程序提交到客户端所在结点YarnRunner向ResourceManager申请一个ApplicationResourceMa原创 2022-04-12 15:08:44 · 2683 阅读 · 0 评论 -
Hadoop笔记05-Hadoop-生产调优手册
HDFS-核心参数NameNode内存生产配置每个文件块大约占用150Byte。在Hadoop 2.x中,通过修改hadoop-env.sh文件:HADOOP_NAMENODE_OPTS=-Xmx3072m 来设置NameNode的内存。在Hadoop 3.x中,hadoop-env.sh中描述内存是动态分配的,有时候是不合适的,需要进行修改,修改hadoop-env.sh文件。经验参考:https://docs.cloudera.com/documentation/enterprise/6/re原创 2022-04-12 15:09:45 · 727 阅读 · 0 评论 -
Hadoop笔记06-Hadoop-源码解析
模拟RPC客户端、服务端、通信协议的工作流程。先启动NNServer,此时服务端就监听8888端口,再启动HDFSClient,客户端向8888端口发送一个RPC请求,由服务端执行操作。当服务端启动后,可以使用jps命令查看到NNServer服务。...原创 2022-07-25 09:01:08 · 433 阅读 · 0 评论