面试题目积累

最新推荐文章于 2020-04-16 09:19:35 发布

温俭峰

最新推荐文章于 2020-04-16 09:19:35 发布

阅读量119

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38416469/article/details/104989092

版权

加粗样式@TOC

面试题目积累

hashMap的实现原理

（1）hashMap不是线程安全的，ConcurrentHashMap是线程安全的

（2）利用key的hashCode重新hash计算出当前对象的元素在数组中的下标

（3）存储时，如果出现hash值相同的key，此时有两种情况。(1)如果key相同，则覆盖原始值；(2)如果key不同（出现冲突），则将当前的key-value放入链表中

（4）获取时，直接找到hash值对应的下标，在进一步判断key是否相同，从而找到对应值。

（5）理解了以上过程就不难明白HashMap是如何解决hash冲突的问题，核心就是使用了数组的存储方式，然后将冲突的key的对象放入链表中，一旦发现冲突就在链表中做进一步的对比。

数据倾斜的解决办法

（1）业务逻辑，我们从业务逻辑层面上来优化数据倾斜，比如就说订单场景吧，我们在某一天在北京和上海两个城市多了强力的推广，结果可能是这两个城市的订单量增长了10000%，其余城市的数据量不变。然后我们要统计不同城市的订单情况，这样，一做group操作，可能直接就数据倾斜了，我们单独对两个城市来做count，最后和其它城市做整合。
有损的方法：
找到异常数据，比如ip为0的数据，过滤掉
无损的方法：
对分布不均匀的数据，单独计算
先对key做一层hash，先将数据打散让它的并行度变大，再汇集

（2）程序层面，比如说在hive中，经常遇到count(distinct)操作，这样会导致最终只有一个reduce，我们可以先group再在外面包一层count，就可以了。

（3）调参方面，Hadoop和spark都自带了很多参数来调节数据倾斜，合理利用它们就能解决大部分问题。
spark平台：
1.mapjoin或者采用broadcast join
2.设置rdd压缩
3.合理设置driver和exector内存

Hadoop平台：
1.mapjoin方式
2.count distinct操作，先转成group，再count
3.hive.groupby.skewindata=true
4.left semi join的使用
5.设置map端输出。中间结果压缩。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
面试题目积累

加粗样式@TOC面试题目积累hashMap的实现原理（1）hashMap不是线程安全的，ConcurrentHashMap是线程安全的（2）利用key的hashCode重新hash计算出当前对象的元素在数组中的下标（3）存储时，如果出现hash值相同的key，此时有两种情况。(1)如果key相同，则覆盖原始值；(2)如果key不同（出现冲突），则将当前的key-value放入链表中（4...
复制链接

扫一扫

温俭峰 CSDN认证博客专家 CSDN认证企业博客

码龄7年

7: 原创

126万+: 周排名

74万+: 总排名

1686: 访问

: 等级

71: 积分

0: 粉丝

0: 获赞

2: 评论

1: 收藏

私信

关注

热门文章

最新评论

特征工程构建
CSDN-Ada助手: 非常感谢博主分享关于“特征工程构建”的博客，我觉得这是一个非常实用的话题，特征工程在机器学习中起着至关重要的作用。如果你感兴趣的话，可以写一篇关于“特征选择方法”的博客，介绍各种特征选择方法的优缺点以及在实际应用中的使用情况。相信这样的技术文章对其他用户也会非常有帮助，期待你的下一篇精彩内容。为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
数据仓库分层
ctotalk: good.

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。