- 博客(3)
- 收藏
- 关注
原创 v我50解锁Spark超详细总结
subtract()方法用于将前一个RDD中在后一个RDD出现的元素删除,可以认为是求补集的操作,返回值为前一个RDD去除与后一个RDD相同元素后的剩余值所组成的新的RDD。使用flatMap()方法时先进行map(映射)再进行flat(扁平化)操作,数据会先经过跟map一样的操作,为每一条输入返回一个迭代器(可迭代的数据类型),然后将所得到的不同级别的迭代器中的元素全部当成同级别的元素,返回一个元素级别全部相同的RDD。转换操作是创建RDD的第二种方法,通过转换已有RDD生成新的RDD。
2024-05-12 23:39:01 1305
原创 Spark编程基础详细总结
第二种方式生成的RDD中保存的是T的值,Seq[String]部分的数据会按照 Seqf(T,Seq[String])的顺序存放到各个分区中,一个 Seq[Stringl对应存放至一个分区,并为数据提供位置信息,通过preferredLocations0方法可以根据位置信息查看每一个分区的值。(2)第2个参数是 ascending,决定排序后 RDD 中的元素是升序的还是降序的,默认是 true,即升序排序,如果需要降序排序则需要将参数的值设置为 false。mapO方法是懒操作,不会立即进行计算。
2024-04-01 17:44:33 2009
原创 大数据技术与应用Spark入门版详细知识讲解
(2)Driver:Spark中的Driver即运行Application的main函数并创建SparkContext,创建SparkContext的目的是为了准备Spark应用程序的运行环境,在Spark中由SparkContext负责与Cluster Manager通信,进行资源申请、任务的分配和监控等,当Executor部分运行完毕后,Driver同时负责将SparkContext关闭。结构化数据可以通过行和列的方式进行查询、分析和处理,常见的例子包括关系型数据库中的表格数据、电子表格中的数据等。
2024-03-04 17:38:36 1278 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人