![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
松子-招财猫
这个作者很懒,什么都没留下…
展开
-
数据仓库的分区与分桶
数据仓库的分区与分桶分区解释:将数据仓库内存储数据量大的表,按表中列值进行切片,列值一样的数据划分到一起,列值分类有多少种就至少有这么多的分区目录。如:某电商公司订单表按天分区,按订单表的下单时间在同一天的数据划分到一个目录中。分桶解释:将数据仓库内存储数据量大的表,按表中列值的hash值对想划分的桶数取模,值一样活着同样在某些范围内的数据划分到一起,划分桶数有多少就有多少分桶目录。如:某电商公司订单表按天分区下再按订单号分桶,按订单表的下单时间在同一天的数据划分到一个目录中,再将数据按订单号进行has原创 2020-05-20 14:27:35 · 1970 阅读 · 0 评论 -
大数据平台去重指标
大数据平台去重指标在使用内存计算的任务中,去重指标都资源消耗是非常高的,因为去重指标会将明细数据和中间缓存结果数据以及逻辑计算放到内存中,所以很容带来资源消耗过高的情况,所以当去重数据量非常庞大到内存不够的情况下该怎么办呢?有两种办法:精确去重、模糊去重 精确去重:明细数据必须保存下来,按数据倾斜的方法处理,将一个单个节点的压力分摊到多个节点上。模糊去重:数据量很大,业务要求精度不高,可以使用相关算法(布隆过滤器、技术估计),降低内存使用量,提高内存使用率。...原创 2020-05-18 16:44:02 · 554 阅读 · 0 评论