bigdata conception
文章平均质量分 91
左林右李02
mt实时数据平台研发
展开
-
流处理框架概览
流处理框架概览storm(record ack容错)微批处理 (Trident, Spark Streaming)flink(分布式一致性快照容错) storm(record ack容错) 虽然流处理多年来一直广泛应用于金融等行业,但它最近正成为更广泛的用例的数据基础设施的一部分。开源框架的可用性推动了这种采用。也许开源世界中第一个广泛使用的大规模流处理框架是Apache Storm。Storm使用一种上游备份和记录确认机制来保证消息在失败后被重新处理。需要注意的是,Storm并不保证状态的一致性,任何可变翻译 2021-05-19 21:45:48 · 650 阅读 · 0 评论 -
计算pv和uv时数据倾斜的处理
背景 计算pv和uv时经常出现数据倾斜,比如在场门客流统计时,地铁口场门是其他场门的上百倍。这很容易导致数据倾斜 解决方案 整体思路是把数据打撒,做两阶段聚合。但是在计算pv和uv时,还是略有不同。 计算pv时,在group by后简单添加随机数即可,代码如下: select dt, gate_id, sum(pv) as pv from( select dt, gate_id, count(pid) as pv f原创 2020-09-11 18:35:13 · 471 阅读 · 0 评论 -
MR解决topN问题思路
MR解决topN问题思路 一个MR job可解决 1、在map端生成key->value对,然后在map端做一个合并操作(在map端做reduce),生成key->show_cnt,然后分发到reduce端 2、在reduce端对相同的key的show_cnt做加和操作,然后将结果排序,得到topN 如果show_cnt加和的结果依然很大,在单台机器上没办法做全局排序,则再起一个M...原创 2020-02-09 22:14:26 · 629 阅读 · 0 评论