Hive优化面试题

最新推荐文章于 2024-09-27 20:00:00 发布

dhdsfg30201010

最新推荐文章于 2024-09-27 20:00:00 发布

阅读量1.4k

点赞数 1

文章标签：大数据面试

原文链接：http://www.cnblogs.com/BigDataBugKing/p/11311949.html

版权

对待像我这种2年开发经验的同学

一般都会被问到。在面试中，我们只要简短的介绍就好了。

首先低调一波，我可能懂的比你少，我就简单说说

1.在排序中，我们使用的是sortBy,它是基于索引，效率高于order by

2.我们在分区的时候采用静态分区，静态分区只是读取配置文件，而动态分区需要重复的读取其它分区的标识，大量的制造了不必要的开销

3.在对待groupBy的数据倾斜的方面，我们设置hive.group.sviWind=ture,这表明它会自动进行负载均衡，去除了数据倾斜的问题

4.hive比较擅长处理大文件，大文件会有效的减少过多job,task的创建，这里我们使用UDF和UDAF来处理数据。UDF是单一处理，解决BUG，UDAF是多行处理，还有UDTF，这里我们不用还是说简单说一下

是单一输入，多行输出。

5.减少job和task的数量，我们使用表的链接。

6.小表join大表

7.大表join大表，过滤空key

8.设置并行数

9.关闭推测执行

10.设置索引

在送点彩蛋，如果被问到hive中有哪些常用函数，

嗯.!有窗口函数,分析函数，比如row_number,distct,Rank,over by,lag,DENSE_RANK

转载于:https://www.cnblogs.com/BigDataBugKing/p/11311949.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

dhdsfg30201010

关注关注

1
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

【硬刚Hive】Hive面试题(6)Hive调优全方位指南(一)

微信搜：import_bigdata，大数据领域硬核原创作者

09-10

740

欢迎关注博客主页：微信搜：import_bigdata，大数据领域硬核原创作者_王知无(import_bigdata)_CSDN博客欢迎点赞、收藏、留言，欢迎留言交流！本文由【王知无】原创，首发于 CSDN博客！本文首发CSDN论坛，未经过官方和本人允许，严禁转载！本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hive部分补充。来源:https://mp.weixin.qq.com/s/NdvHxOtVB7AS5P75QdVO7Q 正文目录 1、.

最全Hive面试题2024年（2万字详解）

大模型大数据攻城狮的专栏

03-25

742

开发Hive中的UDF需要编写Java类，并实现特定的接口。开发者需要继承类，并实现evaluate方法，该方法定义了函数的逻辑。对于复杂的函数，可能需要实现initialize和close方法来处理资源初始化和清理工作。开发完成后，需要编译成jar包，并使用Hive的ADD JAR命令将jar包添加到Hive会话中。之后，可以使用命令来注册UDF，这样就可以在Hive查询中使用自定义的函数了。需要注意的是，UDF的性能对Hive查询性能有直接影响，因此在开发时应尽量优化UDF的执行效率。

参与评论您还未登录，请先登录后发表或查看评论

【Hive】学习与优化3（含常用面试题）

littlemichelle

05-28

392

【SQL刷题】SQL语法学习与面试题练习

Hive优化高频面试题

最新发布

一个大数据的爱好者

09-27

1071

hive优化有关的面试题

hive调优之hive架构层面

starzy

03-03

258

启动本地抓取 Hive 的某些 SQL 语句需要转换成 MapReduce 的操作，某些 SQL 语句就不需要转换成 MapReduce 操作，但是需要注意，理论上来说，所有的 SQL 语句都需要转换成 MapReduce 操作，只不过Hive 在转换 SQL 语句的过程中会做部分优化，使某些简单的操作不再需要转换成 MapReduce，例如：只是select * 查询操作 where条件只对分区字段进行筛选带有limit分支语句 Hive 从 HDFS 中读取数据，有两种方式启用MapReduce

hive面试题

libaowenBlog的博客

09-02

1423

什么是 Hive？Hive结构描述Hive的优势内部表、外部表、分区表、分桶表hive中排序的种类和适用场景动态分区和静态分区的区别 + 使用场景hive 语句执行顺序Hive的几种存储方式列式存储的好处HQL转化为MapReduce的过程Hive 和关系型数据库的区别Hive和HBase的对比区别Hive 小文件问题及解决Hive调优及优化列裁剪和分区裁剪谓词下推聚合类group by操作，发生数据倾斜Join 优化设置合理的map reduce的task数量sort by代替order by。

Hive面试题*精选*！附答案！！！

yhy_only的博客

05-15

1425

学习方法好，事倍功半！

大数据组件 Hive 面试题 + Hive 高频面试题

02-10

《Hive面试题详解：掌握核心知识点》 Hive，作为大数据处理的重要组件，其在面试中的重要性不言而喻。以下将深入探讨Hive的一些核心知识点，以帮助准备大数据面试的同学巩固知识。首先，了解Hive的架构至关重要。...

hive面试题总结（大数据面试）

let_go_on的博客

08-11

4042

概述

Hive的面试题总结

Maynor的博客

05-04

678

Hive基础面试题

Hive面试常问与工作实用 —— Hive Join优化

大数据学习与分享的博客

05-11

317

在阐述Hive Join具体的优化方法之前，首先看一下Hive Join的几个重要特点，在实际使用时也可以利用下列特点做相应优化： 1.只支持等值连接 2.底层会将写的HQL语句转换为MapReduce，并且reduce会将join语句中除最后一个表外都缓存起来 3.当三个或多个以上的表进行join操作时，如果每个on使用相同的字段连接时只会产生一个mapreduce 具体的优化建议： 1.合理的设置map和reduce数量 jvm重用。可在hadoop的mapred-site.xml中设置jvm被重用的次

面试题整理(Hive)

热门推荐

学习笔记

08-05

3万+

1. Hive数据倾斜原因 key分布不均匀业务数据本身的特性 SQL语句造成数据倾斜解决方法 hive设置hive.map.aggr=true和hive.groupby.skewindata=true 有数据倾斜的时候进行负载均衡，当选项设定为true,生成的查询计划会有两个MR Job。第一个MR Job中，Map的输出结果集合会随机分布到Reduce中，每个Reduce做...

[面试]-- Hive面试问题

欢迎来到我的博客，一起探索代码里的世界！

06-06

7969

A所有的hive任务都会有reducer的执行吗？答：不是，由于当前hive的优化，使得一般简单的任务不会去用reducer任务；只有稍微复杂的任务才会有reducer任务举例：使用select * from person ; 就不会有reducer 使用from person p insert into person2 selec...

Hive精选10道面试题

Byyyi耀的博客

01-07

2052

Hive精选面试题

Hive面试题

敲代码的彭于晏

10-16

483

目录 1.hive架构 2.hive如何将hql语法转换成MR执行 3.hive和传统的RDBMS数据块比较 4.Hive中的压缩格式RCFile、 TextFile、 SequenceFile 各有什么区别？ 5.Hive中追加导入数据的4种方式是什么？请写出简要语法 6.Hive调优 7.Hive Stage划分 8.内部表与外部表 9.分区 10.桶 11.压缩 12.数据倾斜问题 13.Hive中order by，sort by，distribute by和...

Hive面试题汇总大全

hongmofang10的博客

03-06

7193

1 什么是hive？ Hive 是基于Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL 查询功能。本质是：将HQL 转化成MapReduce 程序 1）Hive 处理的数据存储在HDFS 2）Hive 分析数据底层的实现是MapReduce 3）执行程序运行在Yarn 上 2 Hive的优缺点优点： 1 操作接口采用类SQL 语法，提供快速开发的能力（简单、容易上手）。 2 避免了去写MapReduce，减少开发人员的学习成本。 3 Hive 的执行延迟比较高

大数据面试(Hive优化)

weixin_43915186的博客

04-23

287

Hive优化 MapJoin 如果不指定MapJoin或者不符合MapJoin的条件，那么Hive解析器会将Join操作转换成Common Join，即：在Reduce阶段完成Join，容易发生数据倾斜，可以用MapReduce把小表全部加载到内存，在map端进行join，避免reduce处理行列过滤列处理：在select中，只拿需要的列，如果有，尽量使用分区过滤，少用select * 行处...

hivesql优化面试题

07-27

Hive SQL优化面试题通常涉及以下几个方面： 1. 查询优化：了解如何通过索引、分区等技术来优化Hive SQL查询性能。可以提到使用合适的索引、分区和分桶来减少数据扫描量，提高查询效率。 2. 性能调优：理解常见的性能瓶颈和优化策略，例如避免全表扫描、减少数据倾斜、合理设置并行度等。可以提到使用合适的数据类型、避免不必要的数据转换、使用合适的连接方式等来提高性能。 3. EXPLAIN关键字的使用：掌握使用EXPLAIN关键字来分析查询执行计划，了解查询的执行顺序和涉及的操作，从而找到潜在的性能问题并进行优化。 4. 解答优化相关的题目：在面试中可能会遇到一些关于查询优化和性能调优的具体问题，例如如何优化某个特定的查询语句，如何处理大数据量的查询等。在回答时可以结合自己的实际经验和知识来给出合理的解决方案。综上所述，Hive SQL优化面试题主要涉及查询优化、性能调优、使用EXPLAIN关键字分析查询计划以及解答具体的优化问题。掌握这些知识和技巧可以帮助提升在Hive SQL领域的技能和竞争力。 #### 引用[.reference_title] - *1* *3* [Hive SQL大厂面试题必考大全](https://blog.csdn.net/m0_47256162/article/details/131687792)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [Hive SQL面试题(附答案)](https://blog.csdn.net/a934079371/article/details/122227602)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]