Hadoop面试知识点

最新推荐文章于 2024-07-18 01:05:43 发布

飞Link

最新推荐文章于 2024-07-18 01:05:43 发布

阅读量543

点赞数

分类专栏：面试题文章标签： hadoop 面试 big data

本文链接：https://blog.csdn.net/feizuiku0116/article/details/121705648

版权

44 篇文章 1 订阅

订阅专栏

一、Hadoop介绍

Hadoop是Apache旗下的一个用java语言实现的开源软件框架，是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理

Hadoop核心组件：

Hadoop集群具体来说包含两个集群：HDFS集群和YARN集群，两者逻辑上分离，但物理上常在一起

NameNode：http://nn_host:port/ 默认：9870

ResourceManager：http://rm_host:port/ 默认：8088

JobHistory:http://jh_host:port/jobhistory 默认：19888

六、MapReduce jobHistory

JobHistory用来记录已经finished的mapreduce运行日志，日志信息存放于HDFS目录中，默认情况下没有开启此功能，需要再mapred-site.xml中配置并手动启动

每一个文件系统都会有垃圾桶机制，便于将删除的数据回收到垃圾桶里面去，避免某些误操作删除一些重要文件。回收到垃圾桶里面的资料数据，都可以进行恢复

HDFS的垃圾回收的默认配置属性为0，也就是说，如果不小心删除了某个文件，那么这个操作是不可恢复的

修改core-site.xml

可以按照生产上的需求设置回收站的保存时间，这个时间以分钟为单位，例如1440=24h=1天

如果启用垃圾箱配置，dfs命令删除的文件不会立即从HDFS中删除。相反，HDFS将其移动到垃圾目录（每个用户在/user/<username>/.Trash下都有自己的垃圾目录）。只要文件保留在垃圾箱中，文件可以快速恢复
使用skipTrash选项删除文件，该选项不会将文件发送到垃圾箱。它将从HDFS中完全删除

关注