- 博客(5)
- 收藏
- 关注
原创 flink之addSource & fromSource 、addSink & SinkTo
fromSource和SinkTo,是flink提供的简易的读取和输出的算子,建议优先使用fromSource和SinkTo,并结合flink官方文档;说个题外话,在1.14以前flink Kafka都是使用的是addSource,实现的是ParalismSourceFunction以及一些容错的类,1.14发布以后采用的fromSource,使用的架构是。inputFormat:定义读取文件的类,具体可以看有哪些实现类,根据需要读取文件的类型定,也可以自定义;
2023-03-30 16:06:17 5471
原创 Spark自定义输出文件
本文将通过源码出发讲述spark如何调用hadoop几种OutputFormat,从而实现的文件输出,这里将讲述几种工作中常使用的算子,例如:saveAsTextFile(path) 、saveAsHadoopFile(path) saveAsTextFile(path)底层调用也是saveAsHadoopFile(path),所以这里主要是讲述后者的源码;这一步也将带你认识到可以自定义的内容;2.PairRDDFunctions 这里指定了OutputForm
2023-03-23 18:49:19 807
原创 站在算子角度理解spark分区策略
首先,所谓的分区策略,我的理解就是让数据去往哪里。看了很多网上讲spark分区策略,虽然知道了spark有defaultPartitioner、HashPartitioner、RangerPartitioner,但是回到实际工作中还是很懵,比如:啥时候会用到分区策略?用到的时候具体使用的那种策略呢?于是乎,小研究了下,在此总结一下。
2023-03-22 17:54:32 243
原创 flink之startNewChain、disableChaining、slotSharingGroup
图1图二1.task:一个task可以看成是一条完整的算子连(source -> sink),在默认情况下,且线程够用的情况下,一个task运行在一个slot里面;2.subtask:task的组成单位,一个subtask由一个线程来运行;3.operator chain:subtask中的算子连成链;4.形成subtask的规则:①当数据发生重定向时例如KeyBy操作。②当程序算子并行度发生变化时。③。
2023-02-16 10:28:20 1699
原创 Spark core通过textFile读取Hdfs文件blockSize如何设置?
其实Spark core无论是读取hdfs还是读取本地文件都会以hadoopfile的形式进行读取,不同点在于读取本地文件时可以通过在resources文件中放入hdfs-site.xml文件设置fs.local.block.size参数来控制blocksize大小,而读取hdfs文件时,blocksize是通过获取此文件在hdfs存储的实际块大小,另外虽然blocksize和具体分区数有关但不是唯一决定因素;接下来,就让我们通过源码简单的来看看。
2023-02-13 15:41:48 434 4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人