fink-DataSet(五)

5.fink-DataSet(五)

1.source
基于文件
readTextFile(path)
基于集合
fromCollection(Collection)
基于socket
自定义
2.transformations
map:输入一个元素,然后返回一个元素,中间可以做一些清洗转换等操作
flatMap:输入一个元素,可以返回零个,一个或者多个元素
mapPartition:类似map,一次处理一个分区的数据【如果在进行map处理的时候需要获取第三方资源链接,建议使用MapPartition】,demo如下
filter:过滤函数,对传入的数据进行判断,符合条件的数据会被留下
reduce:对数据进行聚合操作,结合当前元素和上一次reduce返回的值进行聚合操作,然后返回一个新的值
aggregate:sum、max、min等
distinct:返回一个数据集中去重之后的元素,data.distinct()
join:内连接
outerJoin:外链接
cross:获取两个数据集的笛卡尔积
union:返回两个数据集的总和,数据类型需要一致
first(n):获取集合中的前N个元素
sortPartition:在本地对数据集的所有分区进行排序,通过sortPartition()的链接调用来完成对多个字段的排序
	注意:因为是在本地对数据集所有分区排序,如果数据量较大,可能会出现oom。不过一般的需求是做topn。
3.sink
writeAsText():将元素以字符串形式逐行写入,这些字符串通过调用每个元素的toString()方法来获取
writeAsCsv():将元组以逗号分隔写入文件中,行及字段之间的分隔是可配置的。每个字段的值来自对象的toString()方法
print():打印每个元素的toString()方法的值到标准输出或者标准错误输出流中
4.重分区
Rebalance:对数据集进行再平衡,重分区,消除数据倾斜
	dataSet.rebalance()
Hash-Partition:根据指定key的哈希值对数据集进行分区
	dataSet.partitionByHash()
Range-Partition:根据指定的key对数据集进行范围分区
	dataSet.partitionByRange()
Custom Partitioning:自定义分区规则。
	自定义分区需要实现Partitioner接口
	dataSet.partitionCustom(partitioner, "someKey")
	或者dataSet.partitionCustom(partitioner, 0)
	和DataStream实现一样,Scala实现demo如下
	
	

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值