1.hive一般是用来做什么的
存储数据及处理数据-->数据仓库
2.hive的数据分为哪两块? 分别存储在哪?
分为元数据与数据,元数据存在MySQL,数据存在HDFS上
3.hive的部署流程是什么?
4.hive支持事务是哪个版本开始的?
0.14版本
5.hive建表语句是什么?
create externt table xxx外表、create table xxx内表
6. 换行符和分割符怎样指定的?
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
7.文件格式语法是什么?有哪些文件存储格式?默认是什么?他们的对比性?
8.压缩格式语法是什么?有哪些压缩格式?默认是什么?他们的对比性? 什么场景下用?
9.hive 什么SQL会产生mapreduce job?
聚合、CTAS
11.执行计划怎样看的?
12.默认reduce job有多少个?什么参数可以配置的?
13.yarn和mapreduce的内存调优参数(那两篇博客),请问hive有没有配置相关内存参数呢?
14.map task和reduce task个数由哪些因素决定的?主要考察 spilt
15.内部表和外部表什么区别?语法是什么
16.分区表语法是什么? 静态和动态?
17.桶表是什么概念,什么场景下使用?
(一般我们使用外部分区表)
(一般我们使用外部分区表)
18.我记得若泽给你们说过一节课中讲到 reduce join转为map join
19.怎样从本地加载数据到表里,表到本地呢?
20.UDF函数,怎样临时添加或者永久添加到hive?
写两个udf函数,一个是添加随机数,一个是去掉随机数?
写两个udf函数,一个是添加随机数,一个是去掉随机数?
21.sqoop 语法是什么,怎样将MySQL数据抽取到hive表中呢?
22.sqoop按天怎样增量抽取MySQL的数据呢?
23.shell脚本语言,能不能封装sqoop增量抽取,每天调度一下
若泽大数据交流群:671914634