Haddop入门架构图解

 Hadoop项目的四个模块

 

  1. hadoop common(为其他hadoop模块提供基础设施)
  2. hdfs(一个高可靠,高吞吐量的分布式文件系统)
  3. mapreduce(一个分布式离线的并行计算框架)
  4. yarn(任务调度和资源管理)

 

 

 

HDFS系统架构图

服务功能介绍

Namenode:主节点,存储文件的元数据(文件名,目录结构,属性,块列表,块所在的datanode)

Datanode:本地文件系统中存储文件块数据,以及块数据的校验和

Secondarynamenode:监控hdfs状态辅助后台程序,定期获取hdfs元数据的快照

 

Yarn的架构图

 

 

Yarn服务功能

 

Mapreduce(离线计算框架)

 

Yarn对mapreduce资源的调度过程

 

Spring Boot和Hadoop是两个不同的技术,Spring Boot是一个Java Web开发框架,而Hadoop是一个大数据处理框架。它们并没有直接的联系。如果您想要使用Spring Boot来操作Hadoop集群,则可以使用Hadoop提供的Java API,或者使用一些第三方的Java库来完成操作。 如果您要使用Hadoop 3.x版本,可以按照以下步骤进行操作: 1. 在pom.xml文件中添加hadoop-client依赖: ``` <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>3.x.x</version> </dependency> ``` 2. 配置Hadoop集群的信息,例如core-site.xml、hdfs-site.xml、mapred-site.xml等,可以通过以下方式: ``` @Configuration public class HadoopConfig { @Bean public Configuration hadoopConfiguration() throws Exception { Configuration conf = new Configuration(); conf.set("fs.defaultFS", "hdfs://namenode:8020"); conf.set("mapreduce.framework.name", "yarn"); conf.set("yarn.resourcemanager.address", "resourcemanager:8032"); conf.set("yarn.resourcemanager.scheduler.address", "resourcemanager:8030"); conf.set("mapreduce.jobhistory.address", "historyserver:10020"); conf.set("mapreduce.jobhistory.webapp.address", "historyserver:19888"); return conf; } } ``` 3. 编写Java程序,使用Hadoop提供的API进行操作: ``` @Configuration public class HadoopConfig { @Autowired private Configuration hadoopConfiguration; @Bean public FileSystem fileSystem() throws Exception { return FileSystem.get(hadoopConfiguration); } } ``` 以上是一个简单的示例,您可以根据自己的需求进行修改和扩展。如果您还有其他问题,请随时提出。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值