Hive面试题

Hive面试题

Hive

1. Hive核心

Hive(离线数仓)核心是把SQL语法转换为MapReduce


2. Hive和Hadoop关系

Hive利用Hadoop的HDFS存储实际数据和利用MapReduce分析数据


3. Hive有几种表类型,各有什么特点?

  • 内部表:删除内部表时会将Metastore中的元数据和HDFS中的数据一起删除
    • Hive创建表时默认选择内部表
    • 当需要通过Hive完全管理控制表的整个生命周期时,使用内部表
  • 外部表:删除外部表,只会删除元数据,不会删除HDFS中的数据
    • 适合多人同时操作数据库时建立的表
  • 分区表:通过分区把不同类型的数据放在不同的目录中
    • 意义在于优化查询,减少全表扫描
  • 分桶表:根据哈希值取余计算,将余数相同的数据保存在同一个文件夹下。
    • 意义在于优化查询,减少全表扫描
    • 比分区表划分的更加精细,但是数据平均,适合数据抽样
    • JOIN时可以提高MR程序效率,减少笛卡尔积数量

Hive的优化手段

  • 分区、分桶
  • 开启Map聚合
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值