![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
collinsuns
想学设计的城市搬运工
展开
-
Spark快速大数据分析-Spark介绍(一)
一.spark是什么Spark是一个用来实现快速而通用的集群计算平台,一个围绕速度、易用性和复杂分析构建的大数据处理框架。可以理解spark是用来替代Hadoop中MapReduce而不是替代整个Hadoop,实际上在大部分应用中spark运行在Hadoop的HDFS文件系统当中。但是spark比MapReduce更高效。它可以将Hadoop集群中的应用在内存中的运行速度提升100倍,甚至能够原创 2016-11-29 20:36:54 · 3214 阅读 · 0 评论 -
Spark快速大数据分析-RDD编程
一.RDD基础RDD(Resilient Distributed Dataset):弹性分布式数据集RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区,这些分区运行在集群中的不同节点。用户可以通过2中方法创建RDD:1)读取一个外部数据集sc.textFile("test.txt")2)在驱动器程序里分发驱动器程序中的对象集合(比如list和set)sc.pa原创 2016-12-01 22:24:39 · 770 阅读 · 0 评论