上海小公司大数据面试题汇总(万字干货)(建议收藏)

最新推荐文章于 2024-06-21 00:26:24 发布

大数据肌肉猿

最新推荐文章于 2024-06-21 00:26:24 发布

阅读量697

点赞数 1

分类专栏：面试经验文章标签：大数据面试程序人生经验分享 java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/BigData98/article/details/107469599

版权

这篇博客汇总了上海小公司在大数据面试中的常见问题，包括东软集团、池鹜公司、平安普惠等多个公司的面试经历。涉及到的技术点有HBase的特点与优化、Hive的窗口函数、Redis哨兵模式、Java内存模型、Spark的Shuffle过程、Zookeeper应用以及SQL优化等，涵盖了从基础概念到具体应用的多个方面。

摘要由CSDN通过智能技术生成

1.东软集团架构师电话面试二十分钟：

1.1.hbase有什么特点，他的优缺点：

海量存储，列式存储，高并发，稀疏（列的灵活性，列族中可以指定任意多的列，在列数据为空的情况下，是不会占用存储空间的），高可用（WAL解决高可用，瞬间写入量）

2.单一RowKey固有的局限性决定了它不可能有效地支持多条件查询，不支持SQL语句

1.1.3hbase的过滤器说几个及其作用：

比较运算符（less,greater_or_equal,NO_OP），比较器（BinaryComparator，BitComparator，NullComparator）。

比较过滤器：

rowfilter,familyfilter,qualifierfilter,valuefilter,timestampsfilter,

Filter rowFilter = new RowFilter(CompareOp.GREATER, newBinaryComparator("95007".getBytes()));

2.专用过滤器：SingleColumnValueFilter -会返回满足条件的整行，单列值排除器 SingleColumnValueExcludeFilter ，前缀过滤器 PrefixFilter----针对行键，列前缀过滤器 ColumnPrefixFilter，分页过滤器 PageFilter

1.2.hive表的优化：怎么解决数据倾斜:key分布不均匀，数据本身，sql语句本身容易引起倾斜（goupbykey,join,distinct count）

groupbykey引起的：参数调优：set hive.groupby.skewindata=true;生成的查询计划会有两个MRJob

采用sum() group by的方式来替换count(distinct)完成计算

1.2hive有一张小表明细表，一张超级大的表join，怎么解决这种容易引起数据倾斜？

1.3.hive表之间有父子依赖关系，几十张表，你是如何处理的？

1.4.sqoop给了我一个错误的引导：说是sqoop收集数据。反怼了他。

1.5.Redis的哨兵模式：自己挖的坑，自己踩。

1.6其他的简历方面的也问了不少，没啥特别的说的。

2.池鹜公司架构师电话面试十五分钟：

1.简单介绍自己

2.hive的窗口函数：哪几种？3；每个区别，就是每种的作用；row_number ,rank区别

3.hive的sql语句牛逼吗？写过多少的，

4.我们现在有十个部门，每个部门人员都有绩效评分，怎么搞出每个部门的前三个？重要的来了，简单给我说出一下使用那些关键字，group by? topN？low! 窗口排序函数教你做人dense_rank over()!

5.data warehouse hadoop这些组件ETl之后都是给数据仓库服务用的࿰

最低0.47元/天解锁文章

大数据肌肉猿

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。