自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 虚拟机更改系统时间和本地时间一致命令

1.当今天在hadoop集群执行任务的时候报了一个这个错误(system times on machines may be out of sync),听名字应该是三台机器的时间不同步。于是同步一下时间即可解决 。安装ntpdate工具yum -y install ntp ntpdate拷贝该时区文件,覆盖系统本地时区配置cp /usr/share/zoneinfo/Asia/Sha...

2019-12-05 08:39:23 1491

原创 Stream

原文地址:https://blog.csdn.net/lucasmaluping/article/details/103066599

2019-12-04 15:50:25 69

原创 Spark中Map和MapPartition的区别

在Spark中有map和mapPartitions算子,处理数据上,有一些区别主要区别:1.map是对rdd中的每一个元素进行操作;2.mapPartitions则是对rdd中的每个分区的迭代器进行操作MapPartitions的优点:如果是普通的map,比如一个partition中有1万条数据。ok,那么你的function要执行和计算1万次。使用MapPartitions操作之后...

2019-12-04 10:13:00 1129

原创 Spark中collect方法

1.collect的作用Spark内有collect方法,是Action操作里边的一个算子,这个方法可以将RDD类型的数据转化为数组,同时会从远程集群是拉取数据到driver端。2.已知的弊端首先,collect是Action里边的,根据RDD的惰性机制,真正的计算发生在RDD的Action操作。那么,一次collect就会导致一次Shuffle,而一次Shuffle调度一次stage,然而...

2019-12-04 09:20:29 8392 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除