spark
蓝天的IT生涯
这个作者很懒,什么都没留下…
展开
-
YARN的基本概念
最近一段时间,经常看到有人在微博上说,“很多公司暂时用不到YARN,因为一般公司的集群规模并未像Yahoo、Facebook那样达到几千台,甚至将来几万台”。这完全是一种错误的观念,在Hadoop高速发展的时代,必须更正。实际上,上述观念只看到了YARN的扩展性(Scalability),扩展性是可用可不用的特性,中小型公司将YARN部署到小集群(按照IBM观点,集群规模小于200转载 2014-03-27 22:42:57 · 1105 阅读 · 0 评论 -
Spark Streaming:大规模流式数据处理的新贵
摘要:Spark Streaming是大规模流式数据处理的新贵,将流式计算分解成一系列短小的批处理作业。本文阐释了Spark Streaming的架构及编程模型,并结合实践对其核心技术进行了深入的剖析,给出了具体的应用场景及优化方案。提到Spark Streaming,我们不得不说一下BDAS(Berkeley Data Analytics Stack),这个伯克利大学提出的关于数据分析的转载 2014-08-11 12:59:24 · 1038 阅读 · 0 评论 -
Spark学习笔记(三)-RDD(弹性分布式数据集)
RDD是一些对象的只读集合, 被划分到多台机器上, 并且在某个划分块丢失之后可以重建. 用户可以显式的把RDD缓存在内存中, 方便在类似于Map-Reduce的并发操作中重用, 这也是为什么Spark比较适合处理迭代式Job的原因. RDD通过"血统"(lineage)的概念来保证容错性, 当RDD的一个划分块丢失之后, 该RDD知道怎样从其他的RDD中重建该划分块. RDD中的元素不需要被存转载 2014-08-05 22:40:18 · 2205 阅读 · 0 评论 -
PySpark内部实现
PySpark实现了Spark对于Python的API,通过它,用户可以编写运行在Spark之上的Python程序,从而利用到Spark分布式计算的特点。基本流程PySpark的整体架构图如下,可以看到Python API的实现依赖于Java的API,Python程序端的SparkContext通过py4j调用JavaSparkContext,后者是对Scala转载 2014-07-02 09:25:19 · 12112 阅读 · 2 评论 -
Spark开发指南
简介接入SparkSpark初始化Master URLs在集群上部署代码弹性分布式数据集并行集合 (Parallelized Collections)Hadoop 数据集 (Hadoop Datasets)RDD 的操作转换动作RDD 的持久化存储级别的选择共享变量广播变量累加器转载 2014-06-30 11:09:53 · 1343 阅读 · 0 评论 -
Apache Spark(学习资料二)
Apache SparkSpark Streaming源码分析 – Checkpoint摘要: PersistenceStreaming没有做特别的事情,DStream最终还是以其中的每个RDD作为job进行调度的,所以persistence就以RDD为单位按照原先Spark的方式去做就可以了,不同的是Streaming是无限,需要考虑Clear的问题在clearMetadata时转载 2014-05-19 17:09:25 · 1335 阅读 · 0 评论 -
Spark 学习总结(学习资料一)
2014JanuaryJanuary 4, 2014 » 详细探究Spark的shuffle实现January 2, 2014 » 使用MapReduce框架实现SimRank算法2013OctoberOctober 8, 2013 » Spark源码分析之-Storage模块AugustAugust 30, 2013 » 序列的函数式抽象-转载 2014-05-19 17:10:37 · 1414 阅读 · 0 评论 -
Spark:一个高效的分布式计算系统
什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭转载 2014-03-27 00:19:36 · 1119 阅读 · 0 评论 -
Spark - 大数据Big Data处理框架
Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右。 Spark是hadoop的升级版本,Hadoop作为第一代产品使用HDFS,第二代加入了Cache来保存中间计算结果,并能适时主动推Map/Reduce任务,第三代就是Spark倡导的流Streaming。 Spark兼容Hadoop的APi,能够读写Hadoop的HDFS HB转载 2014-03-25 13:26:15 · 1282 阅读 · 0 评论 -
Spark RDDs(弹性分布式数据集):为内存中的集群计算设计的容错抽象
本文是阅读《Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing》过程中,抽了局部一些关注点翻译出来的文章,没有将全文都翻译。希望这些碎片化甚至不通顺的记录,可以帮助读者取代阅读原论文。论文地址http://www.cs.berkeley.edu/~mat转载 2014-03-29 16:44:17 · 1075 阅读 · 0 评论 -
Spark基础知识学习分享
一、Spark基础知识梳理1.Spark是什么?Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发。Spark基于map reduce 算法模式实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于Hadoop MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,节省了磁盘IO耗时,号称性能比Hadoop原创 2014-03-29 18:25:06 · 5273 阅读 · 2 评论 -
Spark Streaming实例分析
Example代码分析val ssc = new StreamingContext(sparkConf, Seconds(1));// 获得一个DStream负责连接 监听端口:地址val lines = ssc.socketTextStream(serverIP, serverPort);// 对每一行数据执行Split操作val words = lines.flatMap(转载 2014-08-14 09:28:27 · 2129 阅读 · 0 评论