- 博客(3)
- 资源 (1)
- 收藏
- 关注
转载 Spark知识系统化整理分享
在学习和使用Spark的过程中,发现了这篇文章。感觉真不错,便于我们从宏观上了解Apache Spark的历史和现状。 为尊重原文作者,本文仅转载连接如下,建议Spark初学者必读: http://www.36dsj.com/archives/18204 (《为大数据处理点亮一盏明灯 Spark知识系统化整理分享》)
2015-04-11 09:46:21 585
原创 实时分析网站UV与Flajolet-Martin算法
最近在学习如何解决大数据流中的独立元素计数问题。这么讲起来有点抽象,一个很典型的例子是如何实时计算或者估计网站UV。 针对类似问题,很容易想到一个简单的办法:我们可以先对数据排序,然后再统计。可这种方法却无法应对大数据现实,因为在大数据场景下,诸如网站UV的数值,每天可能达到上亿,这就导致计算的时间及空间复杂度很高,因而很难满足实时要求。 Flajolet-Ma
2015-04-06 14:41:48 1811
原创 Spark集群资源调度
在学习和使用Spark过程中,简单了解下Spark如何在不同计算间分配资源,总的来说可以分为如下两个角度去分析(请路过高手指正): 1> 每个Spark应用被分配到独立的进程(Executor)集上,Cluster Manager负责在不同的Spark应用间调度资源。 2> 对于每个Spark应用的进程集内(一个SparkContext实例内),Spark通过 Fair Scheduler
2015-04-05 12:38:59 1451
Hadoop快速入门七步走
2018-04-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人