Hadoop
文章平均质量分 88
深夜书屋
累的时候,去看看代码吧。
展开
-
07-Hadoop之YARN详解
YARN详解一、 定义YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。YARN是一个资源调度器,在hadoop2.x中提出。二、YARN基本架构(1)MR程序提交到客户端所在的节点。(2)YarnRunner向ResourceManager申请一个Application。(3)RM将该应用程序的资源路径返回给YarnRunner。(4)该程序将运行所需资源提交到HDFS上。(5)程序资源提交完毕原创 2021-10-21 17:01:03 · 214 阅读 · 0 评论 -
06-Hadoop之MapReduce详解
MapReduce详解一、 MapReduce概述1.1 定义定义 : 是一个分布式运算程序的编程框架,是 Hadoop 内部编写的。功能 : 用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。1.2 优缺点优点易于编程 — 底层实现了接口良好的扩展性 — 可增加节点高容错性 — 保证任务的完成适合PB级别以上的海量数据的离线处理 — 可实现服务器内节点并发工作缺点不擅长实时计算 — 无法做到毫秒或者秒级内返回结果不擅原创 2021-10-14 16:24:59 · 667 阅读 · 0 评论 -
05-HDFS 之 本地客户端操作
HDFS 之 本地客户端操作3.1 Hadoop 客户端环境配置(1) Windows配置Hadoopa. 将Windows系统下的hadoop 拷贝到其他地方选择hadoop-3.0.0 拷贝到其他盘下,路径不能有中文。 这里是因为我电脑的原因,如果是hadoop3.1.3 的版本会运行不了,看选择。例如: 将 hadoop-3.0.0 文件夹拷贝到 E:\hadoop 下b. 配置 HADOOP_HOME 环境变量c. 配置 PATH 环境变量配置完这一步,大部分的电脑都可以原创 2021-10-08 09:01:35 · 147 阅读 · 0 评论 -
04-Hadoop之HDFS分布式文件系统详解
HDFS详解一、 HDFS 概述1.1 HDFS定义 HDFS( Hadoop Distribution File System), 它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。 HDFS的使用场景:适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。1.2 HDFS优缺点(1)优点a. 高容错性数据自动保存多个副本。它通过原创 2021-09-28 19:05:21 · 1619 阅读 · 0 评论 -
03-Hadoop集群启动常见错误
Hadoop集群启动常见错误注意:dfs是在NameNode的机器上起的服务,而yarn是在yarn-site配置时配置的那台机器上启动的服务。常见错误一:重复格式化对于新配置的集群,需要将集群格式化,这时会在hadoop的根目录下多了两个文件夹,一个是data另一个是logs。name和data的clusterID应该是一样的看logs下的该节点的namenode.log文件常见错误二:配置文件修改错误在配置文件的时候改错、多加都会导致集群启动异常,发生出错误后,可查看$HADOOP_H原创 2021-09-21 14:56:03 · 7624 阅读 · 1 评论 -
02-Hadoop集群搭建
Hadoop集群搭建一、环境准备(准备一台模板机)1.1 模板机配置 — hadoop100 模板机不动,为了后面方便克隆,直接添加新的节点 虚拟机要求:内存 4G , 硬盘 50G, CentOS7,最小安装 这里以hadoop100为模板机,集群配置为hadoop102(nn)、hadoop103(yarn)、hadoop104(2nn)1.1.1 虚拟机安装 在另外写,如何安装一台虚拟机1.1.2 修改主机地址、主机名(1)修改IP地址//打开文件vi /etc/sysc原创 2021-09-21 14:49:14 · 272 阅读 · 0 评论 -
01-Hadoop生态介绍
Hadoop生态介绍一、 大数据概述1.1 大数据主要处理的问题:大数据主要解决海量数据的存储和海量数据的分析计算问题。1.2 大数据特点 — 4V( Volume )大量( Velocity )高速( Variety )多样:结构、非结构化数据( Value )低价值密度二、 Hadoop2.1 Hadoop是什么Hadoop是一个由Apache基金会所开发的分布式系统基础架构主要解决海量数据的存储和海量数据的分析计算问题广义上来说,Hadoop通常是指一个更广泛的概念原创 2021-09-14 18:12:22 · 378 阅读 · 0 评论