B站学习打卡——大数据面试需要注意的问题2

最新推荐文章于 2024-07-25 22:24:14 发布

来！浅浅学习

最新推荐文章于 2024-07-25 22:24:14 发布

阅读量257

点赞数

文章标签：学习 hadoop 面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_47343709/article/details/126738777

版权

学习目标：

P12-23

学习内容：

Day2

sql 在企业中的常用框架和结构调优——调优：在资源不变的前提下，让作业的执行性能提高。

常用框架：Hive，对应的SQL执行引擎的部分为：MapReduce/Spark/Tez

Impala，对内存的要求是极高的。

Presto，京东面试中会比较常用。

Drill，

Phoenix，HBase——sql数据库

Spark SQL，

Hive on Spark，Hive社区

Spark SQL，Spark社区

Meta：元数据，MetaStore：存储元数据信息

框架之间是共享元数据信息的。

行式存储 VS 列式存储 VS 分表

调优策略

架构:分表，分区表 partition，充分利用中间结果集，压缩
语法：排序 order by /sort by /distribute by/cluster by,控制输出（reduce/partition/task）的数量，join 普通join/mapjoin，执行计划
执行：推测执行，并行执行，JVM重用

分表：当大量数据存储在表格中，行式存储会让这个数据的查询大海捞针，所以会把需要的和暂时的简历一个新表进行存储，再次查询就可以不在大表中查询，而是在这个新分表中。

分区表：分区表就像建立了一个文件夹，和这个相关内容就可以放到这个文件夹里，那么下回当我再查找类似的内容的时候就可以通过先进入这个文件夹，再在这个文件夹里找。例如经常会涉及到的系统的用户日志，日志记录用户的操作行为，如果存放在一个文件里，不仅会让文件变的超级大，还会对下次的查询带来麻烦，那如果我们将日志按照日期分区，那么当我们再查找的时候先找日期，再找当日的行为，就会方便很多。单极分区/多级分区，静态分区/动态分区。

充分利用中间结果集：建立temp表，那么查询就可以直接从temp表中查询。

压缩（compress）：使用压缩算法，减少数据的过程。解压缩。好处：空间减少，IO减少。有损压缩和无损压缩。应用场景：输入数据、中间数据、输出数据。压缩比越大，压缩所需要的时间则越慢。

Spark整合bzip2

学习时间：

3h

来！浅浅学习

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
B站学习打卡——大数据面试需要注意的问题2

B站学习打卡——大数据面试需要注意的问题2
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。