- 博客(2)
- 收藏
- 关注
原创 浅谈一下数据倾斜的问题
1、什么是数据倾斜 百度百科是这么解释的。基本上不遇到就看不懂它在说什么是吧,那么下面就我工作遇到的情况我做一个比较片面的解释吧。 一般集群吧起码是3台机器起步,数据都是均匀分布在每台机器上面,但是机器在分发数据的时候是依据某种策略(hash key或者其他方案)来分散数据的,但当我们的数据非常特殊时,在计算时就会有很小的差距,导致数据在一部分区间聚集,这样在这部分区间的数据都被分配到一台节点上去,然而其他机器的数据量远远不同于这一台机器,这就是所谓的数据倾斜,也就是数据没有完全平均到每个节点。 原因: 可
2020-07-07 19:31:52 133 1
原创 呵呵呵大数据
一位初出茅庐的小娃娃的大数据学习史 普不普通 自我介绍一下,我是一个普通城镇出生,普通中学毕业,普通大学读书,在普通公司实习的普普通通的实习生,在这记录一下自己并不普通的理想。 地地道道四川人 ,普通话不普通; 德阳市罗江县金山镇,我在这里度过了人生的头10个年头,不过我现在已经淡忘了当时的童年; 德阳市罗江县,相信在这世界上还有成千上万个差不多大点的城市,我在这里读的中学–罗江中学,地大物博;...
2020-03-17 15:36:13 152 4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人