苏先生之大数据面试经验总结(一)

  1. hive的计算是通过什么实现的
    hive是搭建在Hadoop集群上的一个SQL引擎,它将SQL语句转化成了MapReduce程序在Hadoop上运行,所以hive的计算引擎是MapReduce,而hive的底层存储采用的是HDFS

  2. yarn和hive的关系
    因为hive的底层实现是MapReduce,所以确切的来说是yarn和MapReduce的关系,yarn可以作为MapReduce计算框架的资源调度系统

  3. NameNode和DataNode的通信原理
    客户端向DataNode发出RPC请求后,DataNode会向NameNode请求获取block快,NameNode根据DataNode的块报告和心跳, 会返回给DataNode指令. 通过这种方式NameNode间接地和DataNode进行通信,实际上NameNode作为Server端, 是不会主动去联系DataNode的, 只有作为客户端的DataNode才会去联系NameNode.

  4. 内部表与外部表的区别
    hive创建表的时候通过external修饰的来创建外部表,没有external的则是内部表,当删除内部表时,存储在HDFS的数据将会被一起删除,而删除外部表时,数据则会保留

  5. 数据库事务的概念
    事务就是单个逻辑工作单元执行的一系列操作,要么都执行,要么都不执行,要满足事务,就得满足原子性、一致性、隔离性、持久性

  6. 谈谈HBASE底层的理解
    (1)HBASE主要分为HMaster和HRegionServer,HMaster主要负责表和Region的管理,负责表的增删改查,管理HRagionServer的负载均衡和Region的分布,还负责HRegionServer失效后Region的转移
    (2)HRegionServer主要负责存储HRegion,每一个HRegion上有多个Hstore(对应表中的列簇),当写入数据时,Hstore中的memstore会将数据写入缓存,当缓存写满后(默认64M),会出发flush将缓存里的数据flush到磁盘形成storefile文件,storefile文件是Hfile的轻量级包装,Hfile是附带索引格式的文件

  • 5
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值