想找到大数据高薪工作 精心准备面试必不可少

  以BAT为代表的很多大小互联网公司都在布局大数据,而目前大数据方面的人才依旧十分紧缺,比如大数据生态Spark需要的Scala工程师等。虽然说是人才稀缺,但技术疑点都不能马虎,该学习的技术一点都不能少,该好好准备的面试也不能少,不然自己拿那么高的薪资也很心虚不是?因此,想找到大数据高薪工作 精心准备面试必不可少。

  下面整理了一些大数据的相关面试题,拿来为大家分享一下!

  1、简单概括安装hadoop的步骤

  1)创建 hadoop 帐户。

  2)setup.改 IP。

  3)安装 java,并修改/etc/profile 文件,配置 java 的环境变量。

  4)修改 Host 文件域名。

  5)安装 SSH,配置无密钥通信。

  6)解压 hadoop。

  7)配置 conf 文件下 hadoop-env.sh、core-site.sh、mapre-site.sh、hdfs-site.sh。

  8)配置 hadoop 的环境变量。

  9)Hadoop namenode -format

  10)Start-all.sh

  2、怎样快速的杀死一个job

  1)执行hadoop job -list 拿到job-id

  2)Hadoop job kill hadoop-id

  3、简单概述hadoop的combinet与partition的区别

  combine和partition都是函数,中间的步骤应该只有shuffle!  combine分为map端和reduce端,作用是把同一个key的键值对合并在一起,可以自定义的,partition是分割map每个节点的结果,按照key分别映射给不同的reduce,也是可以自定义的。这里其实可以理解归类。

  4、描述 HBase, zookeeper 搭建过程

  Zookeeper 的问题楼上爬爬有步骤,hbase 主要的配置文件有hbase.env.sh  主要配置的是JDK的路径以及是否使用外部的ZK,hbase-site.xml  主要配置的是与HDFS的链接的路径以及zk的信息,修改regionservers的链接其他机器的配置。

  5、hbase宕机了如何处理?

  HBase的RegionServer宕机超过一定时间后,HMaster会将其所管理的region重新分布到其他活动的RegionServer上,由于数据和日志都持久在HDFS中,该操作不会导致数据丢失。所以数据的一致性和安全性是有保障的。

  但是重新分配的region需要根据日志恢复原RegionServer中的内存MemoryStore表,这会导致宕机的region在这段时间内无法对外提供服务。而一旦重分布,宕机的节点重新启动后就相当于一个新的RegionServer加入集群,为了平衡,需要再次将某些region分布到该server。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值