加粗样式@TOC
面试题目积累
hashMap的实现原理
(1)hashMap不是线程安全的,ConcurrentHashMap是线程安全的
(2)利用key的hashCode重新hash计算出当前对象的元素在数组中的下标
(3)存储时,如果出现hash值相同的key,此时有两种情况。(1)如果key相同,则覆盖原始值;(2)如果key不同(出现冲突),则将当前的key-value放入链表中
(4)获取时,直接找到hash值对应的下标,在进一步判断key是否相同,从而找到对应值。
(5)理解了以上过程就不难明白HashMap是如何解决hash冲突的问题,核心就是使用了数组的存储方式,然后将冲突的key的对象放入链表中,一旦发现冲突就在链表中做进一步的对比。
数据倾斜的解决办法
(1)业务逻辑,我们从业务逻辑层面上来优化数据倾斜,比如就说订单场景吧,我们在某一天在北京和上海两个城市多了强力的推广,结果可能是这两个城市的订单量增长了10000%,其余城市的数据量不变。然后我们要统计不同城市的订单情况,这样,一做group操作,可能直接就数据倾斜了,我们单独对两个城市来做count,最后和其它城市做整合。
有损的方法:
找到异常数据,比如ip为0的数据,过滤掉
无损的方法:
对分布不均匀的数据,单独计算
先对key做一层hash,先将数据打散让它的并行度变大,再汇集
(2)程序层面,比如说在hive中,经常遇到count(distinct)操作,这样会导致最终只有一个reduce,我们可以先group再在外面包一层count,就可以了。
(3)调参方面,Hadoop和spark都自带了很多参数来调节数据倾斜,合理利用它们就能解决大部分问题。
spark平台:
1.mapjoin或者采用broadcast join
2.设置rdd压缩
3.合理设置driver和exector内存
Hadoop平台:
1.mapjoin方式
2.count distinct操作,先转成group,再count
3.hive.groupby.skewindata=true
4.left semi join的使用
5.设置map端输出。中间结果压缩。