文章目录
简答题
-
1、什么是Hive
Hive是基于Hadoop的一个数据仓库工具,能将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能,(能将SQL语句转变成MapReduce任务来执行。) -
2、Hive的意义(最初研发的原因)
意义(目的):降低程序员使用Hadoop的难度,降低学习成本 -
3、Hive的内部组成模块,作用分别是什么
元数据:描述数据的数据
内部执行流程:
解析器(解析器SQL语句)、编译器(把SQL语句编译成MapReduce程序)、优化器(优化MapRedue程序)、执行器(将MapReduce程序运行的结果提交到HDFS) -
4、Hive支持的数据格式
可支持Text, SequenceFile, ParquetFile, ORC格式RCFILE等 -
5、进入Hiveshell窗口的方式
第一种交互方式:Hive交互shell(直接通过bin/hive的方式)
第二种交互方式:Hive JDBC服务
1.启动hiveserver2服务
前台:bin/hive --service hiveserver2
后台:nohup bin/hive --service hiveserver2 &
2.beeline连接hiveserver2
bin/beeline
beeline> !connect jdbc:hive2://node01.hadoop.com:10000
第三种交互方式:Hive命令 就是 bin/hive 加上一些参数 e:bin/hive -e “use myhive;select * from test1;” -
6、Hive数据库、表在HDFS上存储的路径是什么
默认在HDFS系统的 /user/hive/warehouse/ 文件夹下
hive的表存放位置模式是由hive-site.xml当中的一个属性指定的
hive.metastore.warehouse.dir
/user/hive/warehouse -
7、like与rlike的区别
like:like的内容不是正则,而是通配符(模糊匹配查询