Spark入门实战系列--4.Spark运行架构

注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取  1、 Spark运行架构 1.1 术语定义 lApplication:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个D...

2016-12-28 16:57:46

阅读数 372

评论数 0

Spark数据本地性

分布式计算系统的精粹在于移动计算而非移动数据,但是在实际的计算过程中,总存在着移动数据的情况,除非是在集群的所有节点上都保存数据的副本。移动数据,将数据从一个节点移动到另一个节点进行计算,不但消耗了网络IO,也消耗了磁盘IO,降低了整个计算的效率。为了提高数据的本地性,除了优化算法(也就是修改sp...

2016-12-28 16:54:57

阅读数 833

评论数 0

【文章收藏】阿里云破了四个世界纪录

10月28日,SortBenchmark在官方网站公布了2015年排序竞赛的最终成绩。阿里云用不到7分钟(377秒)就完成了100TB的数据排序,打破了ApacheSpark的纪录23.4分钟。SortBenchmark是全球科技公司的计算奥运会,更早之前Hadoop的纪录是72分钟。 So...

2016-10-28 14:38:20

阅读数 317

评论数 0

Spark 性能相关参数配置详解-shuffle篇

作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 在Spark...

2016-03-25 20:52:15

阅读数 445

评论数 1

Spark vs. MapReduce 时间节约66%,计算节约40%

本文转自http://www.csdn.net/article/2014-11-04/2822474,所有权力归原作者所有。虽然本文并没有讲什么实质的东西,但是可以拿来吹牛逼呀~ ⁽⁽ଘ( ˊᵕˋ )ଓ⁾⁾* 摘要:本文将介绍基于物品的协同过滤推荐算法案例在TDW Spark与MapRe...

2016-03-20 20:46:23

阅读数 364

评论数 0

如何查看hadoop是32位还是64位

问题导读: 1.从哪些地方可以识别hadoop是32位还是64位? 2.hadoop本地库在什么位置? hadoop在安装的时候,我们需要知道hadoop版本是32位还是64位。 hadoop官网本来提供的都是32位,因为我们大部分都是64位,所以不得不编译。后...

2016-03-11 15:00:54

阅读数 869

评论数 0

YARN的内存和CPU配置

Hadoop YARN同时支持内存和CPU两种资源的调度,本文介绍如何配置YARN对内存和CPU的使用。 YARN作为一个资源调度器,应该考虑到集群里面每一台机子的计算资源,然后根据application申请的资源进行分配Container。Container是YARN里面资源分配的基本单位...

2016-03-02 16:06:46

阅读数 476

评论数 0

Spark算子:统计RDD分区中的元素及数量

Spark RDD是被分区的,在生成RDD时候,一般可以指定分区的数量,如果不指定分区数量,当RDD从集合创建时候,则默认为该程序所分配到的资源的CPU核数,如果是从HDFS文件创建,默认为文件的Block数。 可以利用RDD的mapPartitionsWithIndex方法来统...

2016-01-26 14:33:20

阅读数 1714

评论数 0

彻底理解MapReduce shuffle过程原理

MapReduce的Shuffle过程介绍 Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。 为什么MapReduce计算模型需要...

2016-01-22 17:03:28

阅读数 1120

评论数 0

Hadoop1.x中HDFS工作原理

HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。 HDFS有很多特点:     ① 保存多个副本,且提供容错机制,...

2016-01-22 15:18:03

阅读数 320

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭