面试题目积累

加粗样式@TOC

面试题目积累

hashMap的实现原理

(1)hashMap不是线程安全的,ConcurrentHashMap是线程安全的

(2)利用key的hashCode重新hash计算出当前对象的元素在数组中的下标

(3)存储时,如果出现hash值相同的key,此时有两种情况。(1)如果key相同,则覆盖原始值;(2)如果key不同(出现冲突),则将当前的key-value放入链表中

(4)获取时,直接找到hash值对应的下标,在进一步判断key是否相同,从而找到对应值。

(5)理解了以上过程就不难明白HashMap是如何解决hash冲突的问题,核心就是使用了数组的存储方式,然后将冲突的key的对象放入链表中,一旦发现冲突就在链表中做进一步的对比。

数据倾斜的解决办法

(1)业务逻辑,我们从业务逻辑层面上来优化数据倾斜,比如就说订单场景吧,我们在某一天在北京和上海两个城市多了强力的推广,结果可能是这两个城市的订单量增长了10000%,其余城市的数据量不变。然后我们要统计不同城市的订单情况,这样,一做group操作,可能直接就数据倾斜了,我们单独对两个城市来做count,最后和其它城市做整合。
有损的方法:
找到异常数据,比如ip为0的数据,过滤掉
无损的方法:
对分布不均匀的数据,单独计算
先对key做一层hash,先将数据打散让它的并行度变大,再汇集

(2)程序层面,比如说在hive中,经常遇到count(distinct)操作,这样会导致最终只有一个reduce,我们可以先group再在外面包一层count,就可以了。

(3)调参方面,Hadoop和spark都自带了很多参数来调节数据倾斜,合理利用它们就能解决大部分问题。
spark平台:
1.mapjoin或者采用broadcast join
2.设置rdd压缩
3.合理设置driver和exector内存

Hadoop平台:
1.mapjoin方式
2.count distinct操作,先转成group,再count
3.hive.groupby.skewindata=true
4.left semi join的使用
5.设置map端输出。中间结果压缩。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值