上海小公司大数据面试题汇总(万字干货)(建议收藏)

本文整理了包括东软集团、池鹜公司、平安普惠等公司的大数据面试问题,涵盖了HBase、Hive、Redis、Spark、Hadoop、SQL等技术,涉及数据倾斜、性能优化、窗口函数、数据仓库、Java并发等多个方面,是大数据面试的宝贵参考资料。
摘要由CSDN通过智能技术生成

该套面试题由文章 #我,30岁,部队服役5年,零基础转大数据#的主人公整理。

1.东软集团架构师电话面试二十分钟:

1.1.hbase有什么特点,他的优缺点:

海量存储,列式存储,高并发,稀疏(列的灵活性,列族中可以指定任意多的列,在列数据为空的情况下,是不会占用存储空间的),高可用(WAL解决高可用,瞬间写入量)

2.单一RowKey固有的局限性决定了它不可能有效地支持多条件查询,不支持SQL语句

1.1.3hbase的过滤器说几个及其作用:

比较运算符(less,greater_or_equal,NO_OP),比较器(BinaryComparator,BitComparator,NullComparator)。

比较过滤器:

rowfilter,familyfilter,qualifierfilter,valuefilter,timestampsfilter,

Filter rowFilter = new RowFilter(CompareOp.GREATER, new BinaryComparator("95007".getBytes()));

2.专用过滤器:SingleColumnValueFilter -会返回满足条件的整行,单列值排除器 SingleColumnValueExcludeFilter ,前缀过滤器 PrefixFilter----针对行键,列前缀过滤器 ColumnPrefixFilter,分页过滤器 PageFilter

1.2.hive表的优化:怎么解决数据倾斜:key分布不均匀,数据本身,sql语句本身容易引起倾斜(goupbykey,join,distinct count)

groupbykey引起的:参数调优:set hive.groupby.skewindata=true;生成的查询计划会有两个MRJob

采用sum() group by的方式来替换count(distinct)完成计算

1.2hive有一张小表明细表,一张超级大的表join,怎么解决这种容易引起数据倾斜?

1.3.hive表之间有父子依赖关系,几十张表,你是如何处理的?

1.4.sqoop给了我一个错误的引导:说是sqoop收集数据。反怼了他。

1.5.Redis的哨兵模式:自己挖的坑,自己踩。

1.6其他的简历方面的也问了不少,没啥特别的说的。

2.池鹜公司架构师电话面试十五分钟:

1.简单介绍自己

2.hive的窗口函数:哪几种?3;每个区别,就是每种的作用;row_number ,rank区别

3.hive的sql语句牛逼吗?写过多少的,

4.我们现在有十个部门,每个部门人员都有绩效评分,怎么搞出每个部门的前三个?重要的来了,简单给我说出一下使用那些关键字,group by? topN?low!  窗口排序函数教你做人dense_rank over()!

5.data warehouse   hadoop这些组件ETl之后都是给数据仓库服务用的,这个已经也是大数据开发工程师必备的了。BI/DW了解一下。

7.hive优化之join:

1.join计算时,小表放左边,

2.Map join:在map端完成join(避免数据倾斜)

mapjoin实现方式:

1.sql语句中添加Mapjoin标记:SELECT /*+ MAPJOIN(smallTable) */ smallTable.key, bigTable.value FROM smallTable JOIN bigTable ON smallTable.key = bigTable.key;

2.开始自动的M

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值