大数据考核题整理(4) Hive相关

马上考核了,这是我总结的考核题。
在这里插入图片描述

1、什么是Hive

是一个基于hadoop的数据仓库工具,可以将结构化数据映射成一张数据表,并提供类SQL的查询功能。

2、Hive的意义(最初研发的原因)

降低程序员使用hadoop的难度。降低学习成本。

3、Hive的内部组成模块,作用分别是什么

(1) 解释器:解析SQL语句
(2) 编译器:将SQL语句编译成MapReduce程序
(3) 优化器:对MR程序进行优化
(4) 执行器:将优化完的程序提交到集群

整个过程需要用到metastore

4、Hive支持的数据格式

hive支持的数据格式

TextFile,
SequenceFile,
ParquetFile,
ORC
RCFILE

5、进入Hiveshell窗口的方式

1,在Hive客户端,配置hive到环境变量的前提下,在节点的任意位置 直接输入hive + 回车
2,先启动hiveserver2服务,在另一个窗口里进入beeline
在beeline输入!connect jdbc:hive2://hadoop01:10000回车进入

6、Hive数据库、表在HDFS上存储的路径是什么

/user/hive/warehouse

7、like与rlike的区别

like模糊查询
rlike正则表达式查询

8、内部表与外部表的区别

(Hive创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。)

在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。

9、分区表的优点是,分区字段的要求是

提高查询效率,避免全数据扫描

分区字段不能和表中的字段重复

10、分桶表的优点是,分桶字段的要求是

在Join和取样时提高查询效率

分桶字段必须是表中的字段

11、数据导入表的方式

1,直接向表中插入数据
2,通过查询插入数据
3,多插入模式
4,查询语句中创建表并加载数据
5,创建表时通过location指定加载数据路径

12、数据导出表的方式

1,将查询的结果导出到本地
2,将查询的结果格式化导出到本地
3,将查询的结果导出到HDFS上
4,Hadoop命令导出到本地
5,Hive Shell 命令导出
6,export导出到HDFS上
7,Sqoop导出

13、order by与sort by的区别

order by全局排序
sort by 局部内排序

14、where 与having的区别

where的作用域是表的字段
having的作用域是查询的字段

15、distribute by何时使用,通常与哪个联合使用

需要按照某个特定字段分区时使用。
通常与sort by联合使用

16、Cluster by何时使用

按照某个特定字段进行分区,同时按照这个字段进行排序的时候

17、distribute by+sort by(相同字段) 与Cluster by的区别

cluster by只能正序,sort by可以任意排序

18、hive -e/-f/-hiveconf分别是什么意思

执行语句
执行文件
设置参数

19、hive声明参数有哪些方式,优先级是什么

三种:参数声明、命令行、配置文件
参数声明》命令行》配置文件

20、编写hiveUDF代码,方法名称叫什么

evaluate

21、企业中hive常用的数据存储格式是什么?常用的数据压缩格式是什么?

orc和parquetFile
snappy

22、hive自定义函数的类型

UDF UDAF UDTF

23、Fetch抓取中设置more有什么效果 设置none有什么效果

more不将简单的查询转化为mapreduce
none任何查询都转化为mapreduce

24、本地模式有什么好处

小量数据查询更快

25、当一个key数据过大导致数据倾斜时,如何处理

1,局部聚合
2,将大任务分成小任务 distribute by

26、Count(distinct) 的替换语句如何编写

在内部sql进行分组,在外层获取组的数量

27、如何使用分区剪裁、列剪裁

要哪个拿哪个,不要别拿

28、如何理解动态分区调整

按第一个表的结构映射到第二个表,它们分区和结构和数据一模一样

29、数据倾斜时,如何将众多数据写入10个文件

30、reduce数量的计算是什么

N=min(每个任务最大的reduce数,总输入数据量/每个Reduce处理的数据量)

31、并行执行有什么好处

提高查询效率

32、严格模式不能执行哪些命令

全表全分区扫描
orderby 必须加limit
不允许笛卡尔积操作

33、JVM重用有什么好处

提高查询效率

34、什么是MR本地计算

程序用到的数据在哪个节点,就把任务分发到哪个节点上

35、先join后过滤的优化方案

先过滤后join

把条件放入on里面,放到最前面

第二个表写成子查询

36、影响Map数量的因素有哪些

文件数量
数据块数量

37、什么是MR本地模式

任务不提交集群,只在本节点运行。

发布了216 篇原创文章 · 获赞 181 · 访问量 7347
展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 技术黑板 设计师: CSDN官方博客

分享到微信朋友圈

×

扫一扫,手机浏览