总结五、Hive和Sqoop

1.hive一般是用来做什么的

 存储数据及处理数据-->数据仓库 

2.hive的数据分为哪两块? 分别存储在哪?

 分为元数据与数据,元数据存在MySQL,数据存在HDFS上

3.hive的部署流程是什么?


 4.hive支持事务是哪个版本开始的? 
 0.14版本 

5.hive建表语句是什么?

create externt table xxx外表、create table xxx内表


6. 换行符和分割符怎样指定的?

 ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'

 7.文件格式语法是什么?有哪些文件存储格式?默认是什么?他们的对比性?


 8.压缩格式语法是什么?有哪些压缩格式?默认是什么?他们的对比性? 什么场景下用?


 9.hive 什么SQL会产生mapreduce job?
 聚合、CTAS


10.hive sql怎样转成mapreduce的过程的?



 11.执行计划怎样看的?


12.默认reduce job有多少个?什么参数可以配置的?



 13.yarn和mapreduce的内存调优参数(那两篇博客),请问hive有没有配置相关内存参数呢?


 14.map task和reduce task个数由哪些因素决定的?主要考察 spilt


 15.内部表和外部表什么区别?语法是什么 


 16.分区表语法是什么? 静态和动态?


17.桶表是什么概念,什么场景下使用?
(一般我们使用外部分区表)


18.我记得若泽给你们说过一节课中讲到 reduce join转为map join


19.怎样从本地加载数据到表里,表到本地呢?


 20.UDF函数,怎样临时添加或者永久添加到hive?
写两个udf函数,一个是添加随机数,一个是去掉随机数?



 21.sqoop 语法是什么,怎样将MySQL数据抽取到hive表中呢? 



 22.sqoop按天怎样增量抽取MySQL的数据呢?



23.shell脚本语言,能不能封装sqoop增量抽取,每天调度一下


若泽大数据交流群:671914634



  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值