1.东软集团架构师电话面试二十分钟:
1.1.hbase有什么特点,他的优缺点:
海量存储,列式存储,高并发,稀疏(列的灵活性,列族中可以指定任意多的列,在列数据为空的情况下,是不会占用存储空间的),高可用(WAL解决高可用,瞬间写入量)
2.单一RowKey固有的局限性决定了它不可能有效地支持多条件查询,不支持SQL语句
1.1.3hbase的过滤器说几个及其作用:
比较运算符(less,greater_or_equal,NO_OP),比较器(BinaryComparator,BitComparator,NullComparator)。
比较过滤器:
rowfilter,familyfilter,qualifierfilter,valuefilter,timestampsfilter,
Filter rowFilter = new RowFilter(CompareOp.GREATER, newBinaryComparator("95007".getBytes()));
2.专用过滤器:SingleColumnValueFilter -会返回满足条件的整行,单列值排除器 SingleColumnValueExcludeFilter ,前缀过滤器 PrefixFilter----针对行键,列前缀过滤器 ColumnPrefixFilter,分页过滤器 PageFilter
1.2.hive表的优化:怎么解决数据倾斜:key分布不均匀,数据本身,sql语句本身容易引起倾斜(goupbykey,join,distinct count)
groupbykey引起的:参数调优:set hive.groupby.skewindata=true;生成的查询计划会有两个MRJob
采用sum() group by的方式来替换count(distinct)完成计算
1.2hive有一张小表明细表,一张超级大的表join,怎么解决这种容易引起数据倾斜?
1.3.hive表之间有父子依赖关系,几十张表,你是如何处理的?
1.4.sqoop给了我一个错误的引导:说是sqoop收集数据。反怼了他。
1.5.Redis的哨兵模式:自己挖的坑,自己踩。
1.6其他的简历方面的也问了不少,没啥特别的说的。
2.池鹜公司架构师电话面试十五分钟:
1.简单介绍自己
2.hive的窗口函数:哪几种?3;每个区别,就是每种的作用;row_number ,rank区别
3.hive的sql语句牛逼吗?写过多少的,
4.我们现在有十个部门,每个部门人员都有绩效评分,怎么搞出每个部门的前三个?重要的来了,简单给我说出一下使用那些关键字,group by? topN?low! 窗口排序函数教你做人dense_rank over()!
5.data warehouse hadoop这些组件ETl之后都是给数据仓库服务用的