2015年04月_jsky_studio

10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载 Spark知识系统化整理分享

在学习和使用Spark的过程中，发现了这篇文章。感觉真不错，便于我们从宏观上了解Apache Spark的历史和现状。为尊重原文作者，本文仅转载连接如下，建议Spark初学者必读： http://www.36dsj.com/archives/18204 (《为大数据处理点亮一盏明灯 Spark知识系统化整理分享》）

2015-04-11 09:46:21 585

原创实时分析网站UV与Flajolet-Martin算法

最近在学习如何解决大数据流中的独立元素计数问题。这么讲起来有点抽象，一个很典型的例子是如何实时计算或者估计网站UV。针对类似问题，很容易想到一个简单的办法：我们可以先对数据排序，然后再统计。可这种方法却无法应对大数据现实，因为在大数据场景下，诸如网站UV的数值，每天可能达到上亿，这就导致计算的时间及空间复杂度很高，因而很难满足实时要求。 Flajolet-Ma

2015-04-06 14:41:48 1811

原创 Spark集群资源调度

在学习和使用Spark过程中，简单了解下Spark如何在不同计算间分配资源，总的来说可以分为如下两个角度去分析（请路过高手指正）： 1> 每个Spark应用被分配到独立的进程(Executor)集上，Cluster Manager负责在不同的Spark应用间调度资源。 2> 对于每个Spark应用的进程集内（一个SparkContext实例内），Spark通过 Fair Scheduler

2015-04-05 12:38:59 1451

Hadoop快速入门七步走

本文整理了网上搜集的Hadoop资料，共7个文件。学习顺序可以按照命名规则 STEP1__XXX --> STEP6__XXX; STEP7_XXX.pdf可以作为工具书参考。适合对大数据感兴趣的初学者快速入门。欢迎大家提出宝贵意见或建议。

2018-04-28

空空如也

TA创建的收藏夹 TA关注的收藏夹