自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

南熏门前一只喵

喵哥写字儿

  • 博客(4)
  • 收藏
  • 关注

原创 确定提交的spark计算任务在spark集群上的最佳分区数

在spark集群上,对于提交的spark计算任务设置合适的分区数可以极大的改善大数据的处理性能。分区数设置的太少会导致一个executor一次处理一个大容量数据块,分区数设置的太多,每个分片处理的数据量太少,在进行数据持久化时需要进行多次连接,对系统造成很大的压力,反而会降低大数据的处理性能。 需要明确如下一些概念: Spark worker节点是集群中执行大数据处理的机器节点。executor...

2019-11-09 18:17:49 748

原创 mongodb $setOnInsert指令说明

$setOnInsert $setOnInsert指令往往同upsert、$set指令配合使用。mongodb官网说明: If an update operation with upsert: true results in an insert of a document, then $setOnInsert assigns the specified values to the fields ...

2019-11-06 21:56:22 7105

原创 Spark广播变量Broadcast

Spark广播变量的目的是让每个worker节点在内存中保存一个只读的对象,节省了在每次tasks创建发送到woker节点中携带该对象副本的网络IO。一些需要在多个task中使用的,不可变的大数据集合对象尤其适合被定义程广播变量。 广播变量的定义方法,fron Spark官网: val broadcastVar = sc.broadcast(Array(1, 2, 3)) //sc是SparkC...

2019-11-05 22:35:40 360

原创 Spark mapPartitions、map、foreachPartition、foreach算子的区别、误区和正确用法

mapPartitions、map、foreachPartition、foreach的区别 mapPartitions和map是transform算子,分别返回一个iterator迭代器和RDD。foreachPartition、foreach是action算子,无返回值。用于结果的输出操作 mapPartitions、foreachPartition中定义的是一个RDD的每一个分区的统一处理逻...

2019-11-05 22:09:44 1425

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除