- 博客(55)
- 问答 (1)
- 收藏
- 关注
原创 Frequency Estimation
文章目录前言算法流程精度实现及改进实现改进前言大数据统计中的频率估计问题,即求一个元素出现的次数。和Cardinality Estimation场景相似,面临着内存开销大的问题,不适合直接存储原始数据。本篇文章介绍解决这个问题的一个算法,Count-Min Sketch 。算法Count-Min Sketch 算法是在论文An Improved Data Stream Summary:T...
2019-01-30 20:33:39 698
原创 LogLog和HyperLogLog
文章目录前言算法过程及实现LogLog&HyperLogLogHyperLogLog过程模拟器应用前言前一篇文章Cardinality Estimation介绍了计算UV的几种方法,HashSet、Bitmap、LPC和PC,这一篇接着介绍LogLog、HyperLogLog算法。算法过程及实现LogLog和HyperLogLog算法将一个输入数字由二进制表示,这个二进制数视为一次...
2019-01-22 20:03:29 1154
原创 Cardinality Estimation
文章目录前言UV统计的难点时空复杂度UV合并相关算法HashSetBitmapLinearPCSALogLogHyperLogLog其他前言最近做UV近似统计的需求,整理了UV统计相关的算法,Cardinality Estimation的相关研究可以用于UV近似统计。下面所列出算法重在实现逻辑,相关证明过程可以参考对应论文。我们的UV统计采用了HyperLogLog算法,因此会对HyperLo...
2019-01-07 00:07:03 609
原创 Druid
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...
2018-12-20 11:20:35 420
原创 Spark Shuffle概述
介绍Spark Shuffle的概念及三种实现,hash shuffle、sort shuffle、tungsten-sort shuffle。
2017-05-19 14:28:05 6364 1
原创 Spark 任务调度之启动CoarseGrainedExecutorBackend
介绍CoarseGrainedExecutorBackend的作用及启动流程。
2017-04-09 00:53:54 19809
原创 Spark 任务调度之Register App
概要本篇博客是Spark 任务调度概述详细流程中的第三部分,介绍Driver向Master注册APP信息的流程
2017-04-04 23:46:29 3996
原创 Spark 任务调度之Launch Driver
概要本篇博客是Spark 任务调度概述详细流程中的第二部分,第一部分Spark 任务调度之Submit Driver中介绍了从命令行提交任务开始,至Master中注册Driver的流程。接下来Master将注册的Driver信息发送到Worker,在Worker节点启动Driver。Master发送LaunchDriver消息 Spark 任务调度之Submit Driver中最后我们讲到将dri
2017-04-02 23:35:31 6949 1
原创 Spark 任务调度之Submit Driver
介绍在Standalone模式下,从命令行使用spark-submit提交任务开始,到将Driver提交到Master的过程。
2017-04-01 15:50:38 8236 1
原创 Spark 任务调度概述
概要主要介绍Standalone部署模式下,从命令行执行spark-submit命令提交任务开始,到最后计算结果返回driver的完整过程,主要涉及到spark-core中deploy、executor和scheduler部分,但DAGScheduler相关的部分涉及到内容较多,这里不作介绍,留作后面详细分析。Spark Doc中的介绍Spark官方文档中,Cluster Mode Overvie
2017-03-31 00:04:27 16521 7
原创 Spark RPC之RpcEndpointVerifier
RpcEndpointVerifier的作用是,当RpcEndpointRef访问对应的RpcEndpoint前,判断RpcEndpoint是否存在
2017-03-26 21:52:52 3717 2
空空如也
eclipse中的debug和指令重排序
2014-12-31
TA创建的收藏夹 TA关注的收藏夹
TA关注的人