自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 资源 (1)
  • 收藏
  • 关注

转载 Spark知识系统化整理分享

在学习和使用Spark的过程中,发现了这篇文章。感觉真不错,便于我们从宏观上了解Apache Spark的历史和现状。      为尊重原文作者,本文仅转载连接如下,建议Spark初学者必读:     http://www.36dsj.com/archives/18204  (《为大数据处理点亮一盏明灯 Spark知识系统化整理分享》)

2015-04-11 09:46:21 585

原创 实时分析网站UV与Flajolet-Martin算法

最近在学习如何解决大数据流中的独立元素计数问题。这么讲起来有点抽象,一个很典型的例子是如何实时计算或者估计网站UV。         针对类似问题,很容易想到一个简单的办法:我们可以先对数据排序,然后再统计。可这种方法却无法应对大数据现实,因为在大数据场景下,诸如网站UV的数值,每天可能达到上亿,这就导致计算的时间及空间复杂度很高,因而很难满足实时要求。         Flajolet-Ma

2015-04-06 14:41:48 1811

原创 Spark集群资源调度

在学习和使用Spark过程中,简单了解下Spark如何在不同计算间分配资源,总的来说可以分为如下两个角度去分析(请路过高手指正): 1> 每个Spark应用被分配到独立的进程(Executor)集上,Cluster Manager负责在不同的Spark应用间调度资源。 2> 对于每个Spark应用的进程集内(一个SparkContext实例内),Spark通过 Fair Scheduler

2015-04-05 12:38:59 1451

Hadoop快速入门七步走

本文整理了网上搜集的Hadoop资料,共7个文件。学习顺序可以按照命名规则 STEP1__XXX --> STEP6__XXX; STEP7_XXX.pdf可以作为工具书参考。 适合对大数据感兴趣的初学者快速入门。欢迎大家提出宝贵意见或建议。

2018-04-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除