spark
文章平均质量分 77
学习和记录spark的过程
joseph645494423
这个作者很懒,什么都没留下…
展开
-
Spark动作算子
【代码】Spark动作算子。原创 2024-06-27 17:04:04 · 304 阅读 · 0 评论 -
Spark转化算子
这个操作是非常昂贵的,最好用aggregateByKey 和reduceByKey代替。就是在shuffle前先进行计算,这样可以减少shuffle的数据。map和mapPartitions及mapPartitionsWithIndex区别。原创 2024-06-18 18:35:00 · 1337 阅读 · 0 评论 -
Spark数据结构RDD
sc.stop()0} else{1我们自定义的分区函数,继承Partitioner,传递分区的个数,并且自己实现数据分区的策略。自己调用partitionBy(new CustomPartitioner(2)),让RDD调用我们自己的分区函数。原创 2024-06-18 14:37:44 · 359 阅读 · 0 评论 -
Spark概述
Apache Spark™是一个多语言引擎,用于在单节点机器或集群上执行数据引擎、数据科学和机器学习。现在主要强调是数据引擎、数据科学及机器学习。原创 2024-05-21 10:29:50 · 480 阅读 · 0 评论