- 博客(4)
- 收藏
- 关注
原创 虚拟机更改系统时间和本地时间一致命令
1.当今天在hadoop集群执行任务的时候报了一个这个错误(system times on machines may be out of sync),听名字应该是三台机器的时间不同步。于是同步一下时间即可解决 。安装ntpdate工具yum -y install ntp ntpdate拷贝该时区文件,覆盖系统本地时区配置cp /usr/share/zoneinfo/Asia/Sha...
2019-12-05 08:39:23 1491
原创 Spark中Map和MapPartition的区别
在Spark中有map和mapPartitions算子,处理数据上,有一些区别主要区别:1.map是对rdd中的每一个元素进行操作;2.mapPartitions则是对rdd中的每个分区的迭代器进行操作MapPartitions的优点:如果是普通的map,比如一个partition中有1万条数据。ok,那么你的function要执行和计算1万次。使用MapPartitions操作之后...
2019-12-04 10:13:00 1129
原创 Spark中collect方法
1.collect的作用Spark内有collect方法,是Action操作里边的一个算子,这个方法可以将RDD类型的数据转化为数组,同时会从远程集群是拉取数据到driver端。2.已知的弊端首先,collect是Action里边的,根据RDD的惰性机制,真正的计算发生在RDD的Action操作。那么,一次collect就会导致一次Shuffle,而一次Shuffle调度一次stage,然而...
2019-12-04 09:20:29 8392 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人