Spark
spark
coolcoo1cool
变得更强
展开
-
【大数据】RDD编程
RDD: RDD是一个分布式的,弹性的数据集,是spark应用中最基本的统一的数据格式单位 RDD分区就是一段连续的数据片不同的数据源,要统一格式,而这个统一的格式就是RDD。spark的计算就是RDD的转换过程。RDD是可以读取的,RDD是不可以修改的,只能对RDD进行转换,转换成新的RDD。每个spark应用程序都包含一个驱动程序,该程序运行用户的主要...原创 2020-03-06 01:22:37 · 947 阅读 · 0 评论 -
【大数据】Spark
spark是一个快速的通用的集群计算平台。特点:快速:比hadoop快出100倍,hadoop框架mapreduce计算需要落地。map任务结束后将结果输出到磁盘或者hdfs,reduce从hdfs读取数据,计算结果又放到 hdfs上,涉及到i/o。同时shuffle机制也需要i/o,伴随数据迁移。耗费时间。 spark相对而言,将mapreduce的计算过程需要的数据尽量的放到内存,当...原创 2020-03-05 17:14:29 · 233 阅读 · 0 评论