HDFS面试题
谦卑t
终身学习
展开
-
HDFS面试题:hdfs写数据的流程
1、使用HDFS提供的客户端Client,向远程的Namenode发起RPC请求2、Namenode会检查要创建的文件是否已经存在,创建者是否有权限进行操作,成功则会为文件创建一个记录,否则会让客户端抛出异常;3、当客户端开始写入文件的时候,客户端会将文件切分成多个packets,并在内部以数据队列“data queue(数据队列)”的形式管理这些packets,并向Namenode申请b...原创 2018-11-29 18:45:53 · 447 阅读 · 0 评论 -
【图文详细 】HDFS面试题:hadoop出现文件块丢失怎么处理
首先需要定位到哪的数据块丢失,可以通过查看日志进行检查和排除,找到文件块丢失的位置后,如果文件不是很重要可以直接删除,然后重新复制到集群上一份即可,如果删除不了,每一个集群都会有备份,需要恢复备份...原创 2018-11-30 08:32:22 · 1892 阅读 · 0 评论 -
【图文详细 】HDFS面试题:hadoop的守护线程以及Namenode的职责是什么
五个守护进程:SecondaryNameNodeResourceManagerNodeManagerNameNodeDataNodeNamenode:主节点,存储文件的元数据(文件名,文件目录结构,文件属性——生成时间,副本数,文件权限),以及每个文件的块列表和块所在的DataNode等。周期性的接受心跳和块的状态报告信息(包含该DataNode上所有数据块的列表)若接...原创 2018-11-30 08:33:23 · 2731 阅读 · 0 评论 -
【图文详细 】HDFS面试题:hadoop1.x和2.x架构上的区别
(1)Hadoop 1.0Hadoop 1.0即第一代Hadoop,由分布式存储系统HDFS和分布式计算框架MapReduce组成,其中,HDFS由一个NameNode和多个DataNode组成,MapReduce由一个JobTracker和多个TaskTracker组成,对应Hadoop版本为Apache Hadoop 0.20.x、1.x、0.21.X、0.22.x和CDH3。(2)H...原创 2018-11-30 08:34:58 · 418 阅读 · 1 评论 -
【图文详细 】HDFS面试题:写出你在工作中用过的hdfs的命令
hadoop fs -put localpath hdfspath 上传文件 hadoop fs -get hdfspath localpath 下载文件 hadoop fs -getmerge hdfspath localpath hadoop fs -rm -r hdfspath 删除 ...原创 2018-11-30 08:38:49 · 608 阅读 · 0 评论 -
【图文详细 】HDFS面试题:用命令显示所有datanode的健康状态
hadoop dfsadmin -report原创 2018-11-30 08:40:53 · 3427 阅读 · 0 评论 -
【图文详细 】HDFS面试题:如何离开安全模式
hadoop dfsadmin -safemode leave原创 2018-11-30 08:41:39 · 382 阅读 · 1 评论 -
【图文详细 】HDFS面试题:如何快速杀死一个job
1、执行 hadoop job -list 拿到 job-id2、hadoop job -kill job-id原创 2018-11-30 08:42:22 · 1584 阅读 · 0 评论 -
【图文详细 】HDFS面试题:hdfs的回收站(防止误删)
默认是关闭的,需要手动打开,修改配置 core-site.xml 添加: <property> <name>fs.trash.interval</name> <value>1440</value> ...原创 2018-11-30 08:43:50 · 594 阅读 · 0 评论 -
【图文详细 】HDFS面试题:介绍Hadoop中RPC协议,以及底层用什么框架封装的
用于将用户请求中的参数或者应答转换成字节流以便跨机传输。函数调用层:函数调用层主要功能是:定位要调用的函数,并执行该函数,Hadoop采用了java的反射机制和动态代理实现了函数的调用。网络传输层:网络传输层描述了Client和Server之间消息的传输方式,Hadoop采用了基于TCP/IP的socket机制。服务端处理框架:服务端处理框架可被抽象为网络I/O处理模型,她描述了客户端...原创 2018-11-30 08:31:39 · 615 阅读 · 1 评论 -
【图文详细 】HDFS面试题:当小文件数量过多时,如何合并小文件
当每个小文件数据量比较小的时候,可以通过命令的方式进行小文件的合并如:hadoop fs -cat hdfs://cdh5/tmp/lxw1234/*.txt | hadoop fs -appendToFile - hdfs://cdh5/tmp/hdfs_largefile.txt,当数据量比较大的时候建议使用MR进行小文件的合并...原创 2018-11-29 20:07:37 · 4111 阅读 · 1 评论 -
【图文详细 】HDFS面试题:什么是大数据
可以从数据的“5V”特性来进行阐述:一、Volume:数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。二、Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。三、Value:数据价值密度相...原创 2018-11-29 18:48:10 · 488 阅读 · 1 评论 -
【图文详细 】HDFS面试题:hadoop集群的安装过程
1、基础集群环境准备包括修改主机名、设置系统默认启动级别、配置普通用户 sudoer 权限、配置IP、关闭防火墙/关闭 Selinux、添加内网域名映射、安装JDK、同步服务器时间、配置免密登录2、上传安装包,并解压到相关目录3、配置文件的配置4、分发安装包到各个节点,Hadoop 集群的每个节点都需要安装Hadoop 安装包5、在HDFS 主节点上执行命令进行初始化namenod...原创 2018-11-29 18:52:03 · 304 阅读 · 0 评论 -
【图文详细 】HDFS面试题:有一个很大的文件,内存装不下,如何实现去重?
对文件的每一行计算hash值,按照hash值把该行内容放到某个小文件中,假设需要分成100个小文件,则可以按照(hash % 100)来分发文件内容,然后在小文件中实现去重就可以了。...原创 2018-11-29 20:00:08 · 972 阅读 · 0 评论 -
【图文详细 】HDFS面试题:hdfs 的数据压缩算法?
(1) Gzip 压缩优点:压缩率比较高,而且压缩/解压速度也比较快; hadoop 本身支持,在应用中处理gzip 格式的文件就和直接处理文本一样;大部分 linux 系统都自带 gzip 命令,使用方便.缺点:不支持 split。应用场景: 当每个文件压缩之后在 130M 以内的(1 个块大小内),都可以考虑用 gzip压缩格式。 例如说一天或者一个小时的日志压缩成一个 gzip ...原创 2018-11-29 20:02:28 · 1332 阅读 · 0 评论 -
【图文详细 】HDFS面试题:datanode在什么情况下不会备份
如果设置备份数为1,就不会再去备份原创 2018-11-29 20:03:39 · 1430 阅读 · 0 评论 -
【图文详细 】HDFS面试题:三个 datanode 当有一个 datanode 出现错误会怎样
缓存jar包到执行任务的节点的classpath中,缓存普通文件到task运行节点的classpath中环形缓存区,map阶段后会往本地溢写文件,他们之间会有一个环形缓存区,可以提高效率...原创 2018-11-29 20:04:43 · 2824 阅读 · 0 评论 -
【图文详细 】HDFS面试题:有200M的文件 写入HDFS是先写128M 复制完之后再写72M 还是全部写完再复制
HDFS上在写入数据的时候,首先会对数据切块,然后从客户端到datanode形成一个管道,在至少将一个文件写入hdfs上后,表示文件写入成功,然后进行复制备份操作,所以是全部写完再复制。...原创 2018-11-29 20:05:56 · 1664 阅读 · 5 评论 -
【图文详细 】HDFS面试题:hdfs里的 edits和 fsimage作用
1)、fsimage文件其实是Hadoop文件系统元数据的一个永久性的检查点,其中包含Hadoop文件系统中的所有目录和文件idnode的序列化信息;2)、edits文件存放的是Hadoop文件系统的所有更新操作的路径,文件系统客户端执行的所以写操作首先会被记录到edits文件中。 fsimage和edits文件都是经过序列化的,在NameNode启动的时候,它会将fsimage文件...原创 2018-11-29 20:06:48 · 2252 阅读 · 0 评论 -
最近做大数据面试官的感想
时间是不可逆的,我们不可能经历之后,然后再返回来修正自己过去的行为,但是我们可以通过观察不同时间段的相同职业人的现状来修正自己。最近一段时间,浪尖忙于招人面试,在面试别人的过程中收获了很多,我相信被我面试的人也会收获很多。面试者的工作经验有十年以上的,有五六年,还有两三年的,每个年龄段都有自己的优点和缺点(这是句废话,每个人都是优缺点参半,实际上强调的是技术实力的优缺点),在这里,其实我想...转载 2018-12-23 10:42:04 · 629 阅读 · 0 评论