Spark
追梦菜鸟
IT男,乐活族,爱旅游、运动、聊天,爱看电视剧
展开
-
anaconda创建虚拟环境
最近在做项目时需要提交pyspark任务到公司的Spark集群上,由于没有集群节点的相关权限,打算采用anaconda创建pyspark的虚拟环境来进行。整个过程分为以下5步:(1)安装Anaconda;(2)创建python虚拟环境(3)安装python相关依赖;(4)打包python虚拟环境;(5)提交任务执行1. 安装Anacondawget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda2-2...原创 2021-01-23 17:17:19 · 694 阅读 · 0 评论 -
Spark重新分区—repartition和coalesce的用法
转载链接:http://blog.csdn.net/u011981433/article/details/50035851重分区函数: repartition(numPartitions:Int):RDD[T] coalesce(numPartitions:Int,shuffle:Boolean=false):RDD[T] 它们两个都是RDD的分区进行转载 2016-10-11 16:36:06 · 12931 阅读 · 0 评论 -
Spark操作—aggregate、aggregateByKey详解
aggregateByKey函数对PairRDD中相同的Key值进行聚合操作,在聚合过程中同样使用了一个中立的初始值。和aggregate函数类似,aggregateByKey返回值的类型不需要和RDD中value的类型一致。因为aggregateByKey是对相同Key中的值进行聚合操作,所以aggregateByKey'函数最终返回的类型还是PairRDD,对应的结果是Key和聚合后的值,而a原创 2017-02-23 21:50:26 · 32366 阅读 · 3 评论 -
Spark操作-map和flatMap
map的作用很容易理解就是对rdd之中的元素进行逐一进行函数操作映射为另外一个rdd。flatMap的操作是将函数应用于rdd之中的每一个元素,将返回的迭代器的所有内容构成新的rdd。通常用来切分单词。测试数据:2 13 13 24 14 24 35 16 17 17 57 6例子程序:import org.apache.spark.SparkConf原创 2017-03-05 17:44:37 · 2154 阅读 · 0 评论