spark
Secret_1943
这个作者很懒,什么都没留下…
展开
-
RDD的理论详解
1.1 why?为什么需要RDD没有RDD/DataSet之前,做WordCount(大数据计算)可以使用:1、原生集合:java/scala中的list,但是只支持单机版!不支持分布式!如果要做分布式的计算,需要做很多额外工作,线程/进程通信,容错,自动平衡…2、MR:效率低(运行效率低,开发效率低) --早就淘汰所以需要有一个分布式的数据抽象,也就使用该抽象,可以表示分布式的集合,那么基于这个分布式集合进行操作,就可以很方便地完成分布式的WordCount(该分布式集合底层应该改将实现的细节封原创 2021-06-08 18:37:37 · 175 阅读 · 0 评论 -
RDD的操作
分类基本算子/操作/方法/APImapfaltMapfilterforeachsaveAsTextFilepackage cn.itcast.coreimport org.apache.commons.lang3.StringUtilsimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/** * Author itcast * Desc 演示RDD的基本操作 */o原创 2021-06-08 20:00:53 · 294 阅读 · 0 评论 -
RDD的创建
两种方式:如何将数据封装到RDD集合中,主要有两种方式:并行化本地集合引用加载外部存储系统(入hdfs、hive、hbase、kafka、RElasticsearch)1、多种APIsc.parallelize(本地集合,分区数)sc.makeRDD(本地集合,分区数)//底层使用parallelizesc.textFilee(本地/hdfs文件/文件夹,分区数)//注意不要用它都大量小文件sc.wholeTextFiles(本地/hdfs文件夹,分区数)//专门用来读取小文件的2、获取原创 2021-06-08 19:20:21 · 83 阅读 · 0 评论