Hadoop
Xeon-Shao
这个作者很懒,什么都没留下…
展开
-
Hadoop1.x中HDFS工作原理
HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。HDFS有很多特点: ① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。 ② 运行在廉价的机器上。(商用机)转载 2016-01-22 15:18:03 · 467 阅读 · 0 评论 -
Spark入门实战系列--4.Spark运行架构
注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取 1、 Spark运行架构1.1 术语定义lApplication:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码;lDriver:S转载 2016-12-28 16:57:46 · 479 阅读 · 0 评论 -
【文章收藏】阿里云破了四个世界纪录
10月28日,SortBenchmark在官方网站公布了2015年排序竞赛的最终成绩。阿里云用不到7分钟(377秒)就完成了100TB的数据排序,打破了ApacheSpark的纪录23.4分钟。SortBenchmark是全球科技公司的计算奥运会,更早之前Hadoop的纪录是72分钟。SortBenchmark的排序竞赛包含4项比赛,其中GraySort和MinuteSort主要评测计算系转载 2016-10-28 14:38:20 · 485 阅读 · 0 评论 -
Spark 性能相关参数配置详解-shuffle篇
作者:刘旭晖 Raymond 转载请注明出处Email:colorant at 163.comBLOG:http://blog.csdn.net/colorant/随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 在Spark的官方文档http://spark.apache.org/docs/latest/configurat转载 2016-03-25 20:52:15 · 536 阅读 · 1 评论 -
如何查看hadoop是32位还是64位
问题导读:1.从哪些地方可以识别hadoop是32位还是64位?2.hadoop本地库在什么位置?hadoop在安装的时候,我们需要知道hadoop版本是32位还是64位。hadoop官网本来提供的都是32位,因为我们大部分都是64位,所以不得不编译。后来官网从hadoop2.5版本开始就提供了64位。为了防止我们用错,下面我们来实际操作和观察。转载 2016-03-11 15:00:54 · 1327 阅读 · 0 评论 -
Spark vs. MapReduce 时间节约66%,计算节约40%
本文转自http://www.csdn.net/article/2014-11-04/2822474,所有权力归原作者所有。虽然本文并没有讲什么实质的东西,但是可以拿来吹牛逼呀~ ⁽⁽ଘ( ˊᵕˋ )ଓ⁾⁾*摘要:本文将介绍基于物品的协同过滤推荐算法案例在TDW Spark与MapReudce上的实现对比,相比于MapReduce,TDW Spark执行时间减少了66%,计算成本降低了转载 2016-03-20 20:46:23 · 592 阅读 · 0 评论 -
YARN的内存和CPU配置
Hadoop YARN同时支持内存和CPU两种资源的调度,本文介绍如何配置YARN对内存和CPU的使用。YARN作为一个资源调度器,应该考虑到集群里面每一台机子的计算资源,然后根据application申请的资源进行分配Container。Container是YARN里面资源分配的基本单位,具有一定的内存以及CPU资源。在YARN集群中,平衡内存、CPU、磁盘的资源的很重要的,根据转载 2016-03-02 16:06:46 · 871 阅读 · 0 评论 -
Spark算子:统计RDD分区中的元素及数量
Spark RDD是被分区的,在生成RDD时候,一般可以指定分区的数量,如果不指定分区数量,当RDD从集合创建时候,则默认为该程序所分配到的资源的CPU核数,如果是从HDFS文件创建,默认为文件的Block数。可以利用RDD的mapPartitionsWithIndex方法来统计每个分区中的元素及数量。关于mapPartitionsWithIndex的介绍可转载 2016-01-26 14:33:20 · 2684 阅读 · 0 评论 -
彻底理解MapReduce shuffle过程原理
MapReduce的Shuffle过程介绍Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。为什么MapReduce计算模型需要Shuffle过程?我们都知道MapReduce计算模型一般包括两个重要的阶段:Map是映射,负责数据转载 2016-01-22 17:03:28 · 2545 阅读 · 0 评论 -
Spark数据本地性
分布式计算系统的精粹在于移动计算而非移动数据,但是在实际的计算过程中,总存在着移动数据的情况,除非是在集群的所有节点上都保存数据的副本。移动数据,将数据从一个节点移动到另一个节点进行计算,不但消耗了网络IO,也消耗了磁盘IO,降低了整个计算的效率。为了提高数据的本地性,除了优化算法(也就是修改spark内存,难度有点高),就是合理设置数据的副本。设置数据的副本,这需要通过配置参数并长期观察运行状态转载 2016-12-28 16:54:57 · 1164 阅读 · 0 评论