fink-DataSet（五）

最新推荐文章于 2022-09-06 13:38:15 发布

CurryYoung11

最新推荐文章于 2022-09-06 13:38:15 发布

阅读量260

点赞数

分类专栏： flink 文章标签：大数据 flink

本文链接：https://blog.csdn.net/curryyoung11/article/details/105254082

版权

flink 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

5.fink-DataSet（五）

1.source

基于文件
readTextFile(path)
基于集合
fromCollection(Collection)
基于socket
自定义

2.transformations

map：输入一个元素，然后返回一个元素，中间可以做一些清洗转换等操作
flatMap：输入一个元素，可以返回零个，一个或者多个元素
mapPartition：类似map，一次处理一个分区的数据【如果在进行map处理的时候需要获取第三方资源链接，建议使用MapPartition】，demo如下
filter：过滤函数，对传入的数据进行判断，符合条件的数据会被留下
reduce：对数据进行聚合操作，结合当前元素和上一次reduce返回的值进行聚合操作，然后返回一个新的值
aggregate：sum、max、min等
distinct：返回一个数据集中去重之后的元素，data.distinct()
join：内连接
outerJoin：外链接
cross：获取两个数据集的笛卡尔积
union：返回两个数据集的总和，数据类型需要一致
first(n)：获取集合中的前N个元素
sortPartition：在本地对数据集的所有分区进行排序，通过sortPartition()的链接调用来完成对多个字段的排序
	注意：因为是在本地对数据集所有分区排序，如果数据量较大，可能会出现oom。不过一般的需求是做topn。

3.sink

writeAsText()：将元素以字符串形式逐行写入，这些字符串通过调用每个元素的toString()方法来获取
writeAsCsv()：将元组以逗号分隔写入文件中，行及字段之间的分隔是可配置的。每个字段的值来自对象的toString()方法
print()：打印每个元素的toString()方法的值到标准输出或者标准错误输出流中

4.重分区

Rebalance：对数据集进行再平衡，重分区，消除数据倾斜
	dataSet.rebalance()
Hash-Partition：根据指定key的哈希值对数据集进行分区
	dataSet.partitionByHash()
Range-Partition：根据指定的key对数据集进行范围分区
	dataSet.partitionByRange()
Custom Partitioning：自定义分区规则。
	自定义分区需要实现Partitioner接口
	dataSet.partitionCustom(partitioner, "someKey")
	或者dataSet.partitionCustom(partitioner, 0)
	和DataStream实现一样，Scala实现demo如下

CurryYoung11

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
fink-DataSet（五）

5.fink-DataSet（五）1.source基于文件readTextFile(path)基于集合fromCollection(Collection)基于socket自定义2.transformationsmap：输入一个元素，然后返回一个元素，中间可以做一些清洗转换等操作flatMap：输入一个元素，可以返回零个，一个或者多个元素mapPartition：类似map，...
复制链接

扫一扫