直观说明Hadoop是什么?有什么作用?

Hadoop是一款用Java编写的开源框架,适用于在分布式服务器集群中存储和处理大规模数据。核心组件包括HDFS(分布式文件系统)和MapReduce(计算框架)。Hadoop擅长大数据存储、日志处理、ETL、机器学习、搜索引擎和数据挖掘等应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、Hadoop是什么

Hadoop是由java语言编写的,在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架,其核心部件是HDFS与MapReduce。

       HDFS是一个分布式文件系统:引入存放文件元数据信息的服务器Namenode和实际存放数据的服务器Datanode,对数据进行分布式储存和读取。

  MapReduce是一个计算框架:MapReduce的核心思想是把计算任务分配给集群内的服务器里执行。通过对计算任务的拆分(Map计算/Reduce计算)再根据任务调度器(JobTracker)对任务进行分布式计算。

 

1.1、重点:

       Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

       把HDFS理解为一个分布式的,有冗余备份的,可以动态扩展的用来存储大规模数据的大硬盘。

       把MapReduce理解成为一个计算引擎,按照MapReduce的规则编写Map计算/Reduce计算的程序,可以完成计算任务。


2、Hadoop能干什么

大数据存储:分布式存储

日志处理:擅长日志分析

ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库

机器学习: 比如Apache Mahout项目

搜索引擎:Hadoop + lucene实现

数据挖掘:目前比较流行的广告推荐,个性化广告推荐

Hadoop是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。


3、怎么使用Hadoop

3.1、Hadoop集群的搭建

无论是在windows上装几台虚拟机玩Hadoop,还是真实的服务器来玩,说简单点就是把Hadoop的安装包放在每一台服务器上,改改配置,启动就完成了Hadoop集群的搭建。

3.2、上传文件到Hadoop集群

Hadoop集群搭建好以后,可以通过web页面查看集群的情况,还可以通过Hadoop命令来上传文件到hdfs集群,通过Hadoop命令在hdfs集群上建立目录,通过Hadoop命令删除集群上的文件等等。

3.3、编写map/reduce程序

通过集成开发工具(例如eclipse)导入Hadoop相关的jar包,编写map/reduce程序,将程序打成jar包扔在集群上执行,运行后出计算结果。

 

 

 

 

### Hadoop Web界面文档与解释 #### 访问Hadoop集群状态监控页面 Hadoop提供了一个内置的Web用户界面来帮助管理员和开发者监控集群的状态以及作业执行情况。通过浏览器访问`http://<namenode-host>:50070/`可以进入NameNode的Web UI[^1]。 此页面提供了关于文件系统的概览信息,包括总容量、已用空间百分比、剩余可用存储量等统计指标;还可以浏览目录结构、查看各个数据节点(DataNodes)的工作状况及其健康报告。 对于YARN资源管理器而言,则可通过`http://<resourcemanager-host>:8088/cluster`获取整个计算框架下的任务调度详情,比如正在运行的应用程序列表、已完成的任务历史记录等重要资讯。 #### 日志审查功能 当启动JournalNode服务时会生成日志文件,路径通常设置为类似于`/home/hadoop-2.7.7/logs/hadoop-spark-journalnode-master.out`这样的位置。虽然这不是直接通过Web接口展示出来的部分,但是了解这些后台进程的日志保存机制有助于排查问题时快速定位到相关联的信息源。 另外,在处理具体的数据操作方面,如需读取由MapReduce产生的输出结果(part-r-00000),可利用命令行工具完成相应动作:`./hadoop fs -cat /output/part-r-00000`[^2]。不过这同样不属于Web界面上的功能范畴内。 #### 集成工作流引擎Oozie可视化支持 尽管创建简单的Oozie工作流程主要依赖于编写XML配置文件并提交给服务器端解析执行[^3],然而现代版本的Apache Oozie已经集成了图形化的编辑器插件(例如 Hue),允许用户更加直观地设计复杂业务逻辑,并且能够方便地监视进度条更新、错误提示框等内容。 综上所述,Hadoop自带了一套完善的基于HTTP协议构建起来的人机交互平台,不仅限于基本参数调整选项卡页签布局形式,更重要的是它能有效辅助相关人员更好地理解和优化分布式系统内部运作原理
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值