Spark
collinsuns
想学设计的城市搬运工
展开
-
Spark快速大数据分析-Spark介绍(一)
一.spark是什么 Spark是一个用来实现快速而通用的集群计算平台,一个围绕速度、易用性和复杂分析构建的大数据处理框架。可以理解spark是用来替代Hadoop中MapReduce而不是替代整个Hadoop,实际上在大部分应用中spark运行在Hadoop的HDFS文件系统当中。但是spark比MapReduce更高效。它可以将Hadoop集群中的应用在内存中的运行速度提升100倍,甚至能够原创 2016-11-29 20:36:54 · 3133 阅读 · 0 评论 -
Spark快速大数据分析-RDD编程
一.RDD基础 RDD(Resilient Distributed Dataset):弹性分布式数据集 RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区,这些分区运行在集群中的不同节点。用户可以通过2中方法创建RDD: 1)读取一个外部数据集 sc.textFile("test.txt") 2)在驱动器程序里分发驱动器程序中的对象集合(比如list和set) sc.pa原创 2016-12-01 22:24:39 · 756 阅读 · 0 评论