Hadoop
文章平均质量分 57
弦之森
无人扶我青云志,我自踏雪至山巅。
展开
-
十八、本地配置Hive
在前面,使用的root用户,但是启动集群时,需要使用到Hadoop用户,所以这里我们需要将/export/server/路径下的hive 和apache-hive-3.1.3-bin的用户和用户组划给Hadoop,以便我们后序的使用。如果初始化成功,那么再次进入MySQL,我们可以在MySQL的hive库中看见274张新建的元数据的表。切换到Hadoop用户创建logs文件夹。需要注意,此处应该将用户切换为Hadoop。注意,需要提前开启hsfs和yarn集群。需要注意,此处应该切换到Hadoop用户。原创 2023-12-23 14:53:42 · 1018 阅读 · 0 评论 -
十七、如何将MapReduce程序提交到YARN运行
对于这些Hadoop内置的程序,他们都存储在hadoop-mapreduce-examples-3.3.6.jar中,如wordcount单词计数程序、pi求圆周率程序。执行完成后,查看some文件夹,可以看到some文件夹中存在两个子文件,第一个文件的文件名的最后一个单词,代表了本次程序运行是否成功,第二个文件存放着程序运行之后的结果。此处需要注意,对于有返回值的程序,需要指定程序参数。需要确保输出的文件夹不存在,否则会报错。原创 2023-12-17 00:02:00 · 687 阅读 · 0 评论 -
十六、YARN和MapReduce配置
已经配置好Hadoop集群。配置内容:(2)修改mapred-site.xml配置文件yarn(1)修改yarn-env.sh文件(2)修改yarn-site.xml文件 分发配置文件(2)执行结果展示、 打开本地浏览器,输入node1:8088,即可打开本地YARN的Web-UI页面。原创 2023-12-15 23:25:38 · 588 阅读 · 0 评论 -
十五、YARN辅助架构
对于YARN架构来讲,除了ResourceManager集群资源总管家、NodeManager单机资源管家两个核心角色外,还可以搭配两个辅助角色使得YARN架构的运行更加稳定、更加高效。辅助角色:~代理服务器(ProxyServer)~历史服务器(JobHistoryServer)原创 2023-12-15 22:58:08 · 470 阅读 · 0 评论 -
十四、YARN核心架构
ResourceManager:整个集群的资源调度者,负责协调各个程序所需要的资源。NodeManager:单个服务器的资源调度者,负责调整单个服务器上的资源供给应用程序使用。 在这里,我们可以将ResourceManager理解为一个项目的总经理,将NodeManager理解为每一个模块的负责人。 在2(2)中,我们提到,如果某个程序需要申请12G的内存空间,那个它就会向ResourceManager提出申请,ResourceManager收到申请之后,会向每个NodeMana原创 2023-12-15 20:48:11 · 374 阅读 · 0 评论 -
十三、YARN资源分配调用
在Hadoop文件系统中,YARN作为Hadoop系统的第三大组件,其中,第二大组件MapReduce组件是基于YARN运行的,即没有YARN无法运行MapReduce程序,所以需要同时学习YARN。 资源调度,所谓资源调度,就是如下: 如何理解资源调度? 举个例子,在一个一万平米的场地上,会有许多人在这里撑帐篷。在无人管理的情况下,大家随意撑开帐篷,可能最多撑50个帐篷,但如果有人对这个场地进行分配,可能会撑80个帐篷。 这就是资源调度。原创 2023-12-12 23:15:00 · 356 阅读 · 0 评论 -
十二、MapReduce概述
MapReduce是“分散——>汇总”模式的分布式计算框架,可供开发人员进行相应计算~Map~Reduce其中,Map功能接口提供了“分散”的功能,由服务器分布式对数据进行处理。Reduce功能接口提供了“汇总(聚合)”的功能,将分布式的处理结果汇总统计。 用户如需使用MapReduce框架完成自定义需求的程序开发,只需要使用Java、python等编程语言,实现Map Reduce功能接口即可。 将任务分解为“分散”——>“任务”——>“汇总”。 在这里,我们一共原创 2023-12-08 17:40:07 · 376 阅读 · 0 评论 -
十一、了解分布式计算
顾名思义,分布式计算,即以分布式的形式完成数据的统计,得到需要的结果。 分布式数据计算,顾名思义,就是“以多取胜”,如果一个问题使用一台计算机计算需要耗时1天,那我们就是用几百个数据节点来计算。 在计算和处理数据时,我们为什么要使用分布式计算,不能用“计算器”来计算吗?其实,使用什么方式来处理数据,并不是由我们决定的,是由数据本身决定的。 将一个数据分配给许多服务器,每一个服务器分配到一部分的数据,当它们将数据处理完成,将它们各自处理的数据结果向其中一台服务器进行汇原创 2023-12-08 17:06:07 · 665 阅读 · 0 评论 -
十、数据读/写流程
~客户端发送请求~NameNode做判断,是否具有权限,空间是否充足~返回地址,告诉客户端一个datanode,~向指定的datanode发送数据包, 副本的复制和备份如何处理? 被写入的DataNode同时完成数据副本的复制工作,将其接收的数据分发给其它DataNode,DataNode之间完成本分~客户端告诉NameNode工作结束,NameNode开始记录元数据,即工作文档。 NameNode不接受数据,它只负责审批和记录元数据 DataNode原创 2023-12-08 16:29:44 · 346 阅读 · 0 评论 -
九、hdfs中Namenode元数据处理
在hdfs文件系统中,用户的每一次操作,都会对文件系统产生响应的影响,那么谁来记录这些影响呢?在hdfs文件系统中,edits文件记录了hdfs中的每一次操作,以及本次操作影响的文件其对应的block。但于此同时,会产生一个问题,那就是随着时间的推移,hdfs文件系统中的edits文件会越来越大,这是hdfs文件系统会将edits文件进行切分处理,以避免个别edits文件过大现象。那么,是那个用户来统筹和操作edits文件呢?答案是Namenode用户。原创 2023-11-29 22:30:10 · 424 阅读 · 0 评论 -
八、hdfs文件系统副本块数量的配置
【代码】八、hdfs文件系统副本块数量的配置。原创 2023-11-29 21:39:53 · 544 阅读 · 0 评论 -
七、HDFS文件系统的存储原理
之所以把总结放在文件开头,是为了让读者对这篇文章有更好的理解,(其实是因为我比较懒……)对于整个HDFS文件系统的存储原理,我们可以总结为一句话,那就是:分块+备份。原创 2023-11-21 23:57:35 · 178 阅读 · 0 评论 -
六、Big Data Tools安装
在Jetbrains的任意一款产品中,均可安装Big Data Tools这个插件。原创 2023-11-21 23:29:01 · 413 阅读 · 0 评论 -
五、hdfs常见权限问题
如果想使用root用户对hdfs文件系统进行操作,就需要使用Hadoop用户调整root用户的权限,将root用户放入supergroup这个组。在Hadoop文件系统中,Hadoop用户相当于Linux系统中的root用户,是最高级别用户。没有使用Hadoop用户对hdfs文件系统进行操作。原创 2023-11-19 10:25:43 · 205 阅读 · 0 评论 -
四、hdfs文件系统基础操作-保姆级教程
其实hdfs作为分布式存储的文件系统,其构成和Linux文件系统构成差不多一样,均是以“/”作为根目录的组织形式。在学习hdfs文件系统基础操作之后,你会发现hdfs文件系统的操作和Linux文件系统的操作十分相似,两者之间为数不多的区别就是hdfs文件系统在使用命令名时,需要在命令名前加上“-”。原创 2023-11-18 13:25:24 · 185 阅读 · 0 评论 -
二、Hadoop分布式系统基础架构
分布式体系中,会存在众多服务器,会造成混乱等情况。那如何让众多服务器一起工作,高效且不出现问题呢?原创 2023-11-05 23:32:58 · 836 阅读 · 1 评论 -
一、Hadoop初始化配置(final+ubuntu保姆级教程)
设置-》网络-》点击-》将ipv4调整为手动-》修改地址、子网掩码、网关、dns。原创 2023-11-04 00:58:41 · 962 阅读 · 0 评论