Hive面试题
谦卑t
终身学习
展开
-
Hive面试题:hive有哪些udf函数,作用
UDF(user-defined function)作用于单个数据行,产生一个数据行作为输出。(数学函数,字符串函数)UDAF(用户定义聚集函数 User- Defined Aggregation Funcation):接收多个输入数据行,并产生一个输出数据行。(count,max)UDTF(表格生成函数 User-Defined Table Functions):接收一行输入,输出(ex...原创 2018-12-02 11:00:30 · 2425 阅读 · 0 评论 -
Hive面试题:hive中大表和小表join要注意什么
开启map join, 然后设置合适的split的大小,来增加到合适的mapper数量原创 2018-12-01 11:26:01 · 2891 阅读 · 1 评论 -
Hive面试题:hive调优的思路
1、 好的模型设计2 、解决数据倾斜3 、减少job数4 、设置合理的map reduce的task数5 、对小文件进行合并6 、单个作业最优不如整体最优原创 2018-12-01 11:24:45 · 2688 阅读 · 0 评论 -
Hive面试题:multi group by的好处,举例说明
multi group by 可以将查询中的多个group by操作组装到一个MapReduce任务中,起到优化作用例子:select Provice,city,county,count(rainfall) from area where data="2018-09-02" group by provice,city,countselect Provice,count(rainfall...原创 2018-12-01 11:23:22 · 2186 阅读 · 0 评论 -
Hive面试题:hql的执行流程
第一步:输入一条HQL查询语句(eg. select * from tab)第二步:解析器对这条Hql语句进行语法分析。第三步:编译器对这条Hql语句生成HQL的执行计划。第四步:优化器生成最佳的Hql的执行计划。第五步:执行这条最佳Hql语句。...原创 2018-12-01 11:22:00 · 2777 阅读 · 1 评论 -
Hive面试题:cluster by,order by,sort by distribute by的使用场景
order by:会对输入做全局排序,因此只有一个Reducer(多个Reducer无法保证全局有序),然而只有一个Reducer,会导致当输入规模较大时,消耗较长的计算时间。sort by:不是全局排序,其在数据进入reducer前完成排序,因此,如果用sort by进行排序,并且设置mapred.reduce.tasks>1,则sort by只会保证每个reducer的输出有序,并不...原创 2018-12-01 11:20:48 · 1619 阅读 · 0 评论 -
Hive面试题:Hive分区表和分桶表的区别
分区在HDFS上的表现形式是一个目录, 分桶是一个单独的文件分区: 细化数据管理,直接读对应目录,缩小mapreduce程序要扫描的数据量分桶: 1、提高join查询的效率(用分桶字段做连接字段) 2、提高采样的效率...原创 2018-12-01 11:19:19 · 3465 阅读 · 0 评论 -
Hive面试题:udf,udaf,udtf的区别
Hive中有三种UDF: 1、用户定义函数(user-defined function)UDF; 2、用户定义聚集函数(user-defined aggregate function,UDAF); 3、用户定义表生成函数(user-defined table-generating function,UDTF)。UDF操作作用于单个数据行,并且产生一个数据行作为输出...原创 2018-12-01 00:45:08 · 702 阅读 · 1 评论 -
Hive面试题:Hive 内部表和外部表的区别
创建外部表多了external关键字说明以及location path.Hive中表与外部表的区别:1、在导入数据到外部表,数据并没有移动到自己的数据仓库目录下,也就是说外部表中的数据并不是由它自己来管理的!而表则不一样;2、在删除表的时候,Hive将会把属于表的元数据和数据全部删掉;而删除外部表的时候,Hive仅仅删除外部表的元数据,数据是不会删除的!...原创 2018-12-01 00:41:30 · 710 阅读 · 0 评论 -
Hive面试题:请写出你在工作中自定义过的udf函数,简述定义步骤
步骤:1.extends UDF,实现evaluate()2.add JAR /home/hadoop/hivejar/udf.jar;3.create temporary function tolowercase as 'com.ghgj.hive.udf.ToLowerCase';4.使用5.drop temporary function tolowercase;...原创 2018-12-01 00:40:10 · 1560 阅读 · 0 评论 -
Hive面试题:udf,udaf,udtf的区别
Hive中有三种UDF: 1、用户定义函数(user-defined function)UDF; 2、用户定义聚集函数(user-defined aggregate function,UDAF); 3、用户定义表生成函数(user-defined table-generating function,UDTF)。UDF操作作用于单个数据行,并且产生一个数据行作为输出...原创 2018-12-01 00:38:23 · 1086 阅读 · 1 评论 -
Hive面试题:Q14、 简要描述数据库中的 null,说出null在hive底层如何存储,并解释selecta.* from t1 a left outer join t2 b on a.id=b.
null与任何值运算的结果都是null, 可以使用is null、is not null函数指定在其值为null情况下的取值。null在hive底层默认是用'\N'来存储的,可以通过alter table test SET SERDEPROPERTIES('serialization.null.format' = 'a');来修改。...原创 2018-12-02 11:12:21 · 1386 阅读 · 1 评论 -
Hive面试题:hive如何实现in和not in
In的实现:Hive中的in的实现方式很多,简单说几种:用left semi join实现 用left outer join+is not null实现 Inner join实现Not in的实现:Left outer join+is null举例说明:有两个表如下:skim表userID itemID time 001 342 201...原创 2018-12-02 11:10:37 · 2491 阅读 · 0 评论 -
Hive面试题:hive中使用drop table数据能恢复吗
可以恢复如果是外部的话这个句子不会删除表中的数据只需要重新建表关联hdfs的数据目录就可以了如果是内部表的话,则需要提前配置hdfs的回收站,当删除hive中表的时候会将表的数据放置到hdfs的回收站中,只需要从回收站还原即可 hdfs dfs-mv.........原创 2018-12-02 11:03:45 · 3067 阅读 · 0 评论 -
最近做大数据面试官的感想
时间是不可逆的,我们不可能经历之后,然后再返回来修正自己过去的行为,但是我们可以通过观察不同时间段的相同职业人的现状来修正自己。最近一段时间,浪尖忙于招人面试,在面试别人的过程中收获了很多,我相信被我面试的人也会收获很多。面试者的工作经验有十年以上的,有五六年,还有两三年的,每个年龄段都有自己的优点和缺点(这是句废话,每个人都是优缺点参半,实际上强调的是技术实力的优缺点),在这里,其实我想...转载 2018-12-23 10:42:04 · 619 阅读 · 0 评论