大数据之Spark
CoderLin很忙
欢迎来到ABC时代~
展开
-
理解Spark中的RDD、DataFrame和DataSet
RDDRDD(Resilient Distributed Datasets)叫做弹性分布式数据集,是Spark中最基本的数据抽象,源码中是一个抽象类,代表一个不可变、可分区、里面的元素可并行计算的集合。编译时类型安全,但是无论是集群间的通信,还是IO操作都需要对对象的结构和数据进行序列化和反序列化,还存在较大的GC的性能开销,会频繁的创建和销毁对象。RDD也不支持SparkSQL操作。Data...原创 2019-02-21 21:13:23 · 591 阅读 · 0 评论 -
Spark的四种部署方式概括
1.Local模式Local模式就是运行在一台计算机上的模式,通常用于在本机上测试,当不设置master参数的值时,默认此模式,具体有以下几种设置master的方式。local:所有计算都运行在一个线程当中,没有任何并行计算。local[n]:指定使用n个线程来运行计算。local[*]:按照CPU的最多核数来设置线程数。2.Standalone模式设置master参数的值为sp...原创 2019-02-17 22:42:21 · 6733 阅读 · 0 评论 -
Spark实现wordcount
object WordCount{ def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("wordcount") val sc = new SparkContext(conf) sc.textFile(args(0)).flatMap(_.split(" ")...原创 2019-02-17 23:26:23 · 892 阅读 · 0 评论