map与mapPartitions

最新推荐文章于 2024-07-18 16:32:46 发布

weixin_34007906

最新推荐文章于 2024-07-18 16:32:46 发布

阅读量144

点赞数

文章标签：数据库

区别在于sc.map是将RDD下的所有行数据统计处理。而sc.mapPartitions是按RDD分区进行数据统计处理。

测试一下：

val data = sc.parallelize(1 to 6,3)
def mapTest(param1:Int):Int={
	println("by map,data:"+param1)
	param1*2
}

def mapPartitionsTest(listParam:Iterator[Int]):Iterator[Int]={
	println("by partition:")
	var res = for(param<-listParam) yield param*2
	res
}
data.map(mapTest).collect
data.mapPartitions(mapPartitionsTest).collect

map输出的是6行记录，也就是说一行数据一条记录。

mapPartitions输出的是3行记录，也就是说一个分区一次处理。

另外我在spark-shell写自定义方法时发现有个问题：

def mapPartitionsTest(listParam:Iterator[Int]):Iterator[Int]={
	println("by partition:")
	var res = for(param<-listParam) 
        {
             yield param*2
        }
	res
}

如果我这么写yield，会报 illegal start of statement这个错误，和我说声明的不合法。奇怪，试了办法没有找到原因，最后把大括号去掉就没有问题了

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_34007906

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
map与mapPartitions

区别在于sc.map是将RDD下的所有行数据统计处理。而sc.mapPartitions是按RDD分区进行数据统计处理。测试一下：val data = sc.parallelize(1 to 6,3)def mapTest(param1:Int):Int={ println("by map,data:"+param1) param1*2}def mapParti...
复制链接

扫一扫