自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 flink之addSource & fromSource 、addSink & SinkTo

fromSource和SinkTo,是flink提供的简易的读取和输出的算子,建议优先使用fromSource和SinkTo,并结合flink官方文档;说个题外话,在1.14以前flink Kafka都是使用的是addSource,实现的是ParalismSourceFunction以及一些容错的类,1.14发布以后采用的fromSource,使用的架构是。inputFormat:定义读取文件的类,具体可以看有哪些实现类,根据需要读取文件的类型定,也可以自定义;

2023-03-30 16:06:17 5471

原创 Spark自定义输出文件

本文将通过源码出发讲述spark如何调用hadoop几种OutputFormat,从而实现的文件输出,这里将讲述几种工作中常使用的算子,例如:saveAsTextFile(path) 、saveAsHadoopFile(path) saveAsTextFile(path)底层调用也是saveAsHadoopFile(path),所以这里主要是讲述后者的源码;这一步也将带你认识到可以自定义的内容;2.PairRDDFunctions 这里指定了OutputForm

2023-03-23 18:49:19 807

原创 站在算子角度理解spark分区策略

首先,所谓的分区策略,我的理解就是让数据去往哪里。看了很多网上讲spark分区策略,虽然知道了spark有defaultPartitioner、HashPartitioner、RangerPartitioner,但是回到实际工作中还是很懵,比如:啥时候会用到分区策略?用到的时候具体使用的那种策略呢?于是乎,小研究了下,在此总结一下。

2023-03-22 17:54:32 243

原创 flink之startNewChain、disableChaining、slotSharingGroup

图1图二1.task:一个task可以看成是一条完整的算子连(source -> sink),在默认情况下,且线程够用的情况下,一个task运行在一个slot里面;2.subtask:task的组成单位,一个subtask由一个线程来运行;3.operator chain:subtask中的算子连成链;4.形成subtask的规则:①当数据发生重定向时例如KeyBy操作。②当程序算子并行度发生变化时。③。

2023-02-16 10:28:20 1699

原创 Spark core通过textFile读取Hdfs文件blockSize如何设置?

其实Spark core无论是读取hdfs还是读取本地文件都会以hadoopfile的形式进行读取,不同点在于读取本地文件时可以通过在resources文件中放入hdfs-site.xml文件设置fs.local.block.size参数来控制blocksize大小,而读取hdfs文件时,blocksize是通过获取此文件在hdfs存储的实际块大小,另外虽然blocksize和具体分区数有关但不是唯一决定因素;接下来,就让我们通过源码简单的来看看。

2023-02-13 15:41:48 434 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除