大数据基础作业

本文是关于Hadoop集群的基础知识整理,涵盖了SafeMode模式理解、黑白名单设置、Windows上运行Hadoop的可能性、MapReduce处理任务的基本流程、TextInputFormat的文件切分方式、Namenode无数据的情况、服务器间免密登录实现、MapReduce的适用场景与缺点、基本数据类型、YARN组件及其作用、Shuffle过程中的环形缓冲区、MapReduce执行前的主要工作、HDFS配置属性、完全分布式模式注意事项、Hadoop运行模式、Combiner的作用、Shell脚本求极值、WordCount MapReduce示例以及常用的HDFS和Linux命令。
摘要由CSDN通过智能技术生成

晚自习作业(整理以下问题答案,下次周考会从中抽取题库进行考试)
整理完毕后,发到我的邮箱:ljhyigehaoren@sina.com
1.简单描述你对Hadoop集群SafeMode模式的理解?
SafeMode 安全模式 namenode在启动后处于安全模式,则namenode的文件系统对于客户端来说是只读的。无法对文件处理。

2.hadoop集群中如何设置黑名单和白名单?作用分别是什么?
添加白名单:添加到白名单的主机节点,都允许访问namenode,不在白名单的主机点都会被退出, 在namenode的/opt/module/hadoop-2.7.2/ect/hadoop目录下创建dfs.hosts文件 在里面添加主机名称
在namenode的hafs-site.Xml 配置文件中添加hds.hosts属性,就是说添加路径名称
配置文件分发
刷星NameNode 更新ResourceManager节点
在web中查看
添加黑名单:在黑名单的主机都会被强制退出
在namenode的/opt/module/hadoop-2.7.2/etc/hadoop目录下创建dfs.hosts.exclude文件
写下要退出的主机名称
在hadfs-site.xml配置文件添加属性,文件分发 刷新Namenode,ResourceManager 价差web浏览器

3.是否可以在Windows上运行Hadoop?
经过我在网上的查找是可以的需要配置环境

4.在MapReduce处理任务时,简单描述经过哪节基本流程?

1MapTask收集我们的map()方法输出的kv对,放到内存缓冲区中
2在内存缓冲区不断溢出本地磁盘文件,可能会益出读个文件
3多个溢出文件会被合并成大的溢出文件
4在溢出过程及合并的过程中,都要调用Parttioner进行分区和针对key进行排序
5ReduceTask根据自己的分区号,去各个MapTask机器上取相应的结果分区数据
6ReduceTask会取到同一个分区的来自不同MapTask的结果文件,ReduceTask会将这些文件再进行合并
7合并成大文件后,Shuffle的过程也就结束了,后面进入ReduceTask的逻辑运算过程

5.简答描述以下TextInputFormat怎么进行文件切分?

1TextInputFormat是默认的FileInputFormat实现类。按行读取每条记录。键是储存该行在整个文件中的起始字节偏移量,LongWritable类型。值是这行的内容,不包括任何终止符
2KeyvalueInputFormat每一行均为一条记录,被分隔符分割为key value。可以通过再驱动类中设置conf set(KeyValueLineReaderKEY_VALUE_SEPERATOR,”\t”)来设定分隔符。默认分隔符是。默认分隔符是tab。
3NLineInputFormat 如果使用NlineInputFormat,代表每个map进程处理的InputSplit不在按NlineInputFormat指定的行数N来划分。

6.假如Namenode中没有数据会怎么样?
没有数据的Namenode就不能称为namnode,通常情况下,Namenode肯定会有数据的

7.如何实现服务器之间的免密登录(便捷版),SSH采用的是什么加密?
Shh ssh-key-gen生成密钥对,分发到别的节点,再服务器间尝试使用免密登陆,
采用的是两种加密方式对称加密和非对称加密

8.简单描述MapReduce不合适对哪些场景的使用,其实问得就是他得缺点?
MapReduce的缺点:针对实时计算,它不能进行秒或毫秒之间的计算
不擅长流式计算 不擅长DAG有向图计算

9.MapReduce的基本数据类型包括哪些?
关于java的就是再后面添加writable
BooleanWritable ByteWritable IntWritable FloatWritable LongWritable DoubleWritable Text MapWritable ArrayWritable
10.yarn有哪几部分组成,作用分别是什么?调度器主要有哪三种,hadoop默认的是哪一种?
Yarn有ResourceManager NodeManager ApplicationMaster和Contai

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值