spark
caixiaohao007
这个作者很懒,什么都没留下…
展开
-
spark自定义累加器
在spark2.0后,官方提供了一个新的抽象类AccumulaterV2来提供更加友好的自定义类型累加器的实现方式。 abstract class AccumulatorV2[IN, OUT] extends Serializable 实现自定义累加器需要继承AccumulatorV2并重写下面的方法。 class MyAccumulator extends AccumulatorV2...原创 2019-07-19 16:35:42 · 242 阅读 · 0 评论 -
spark自定义外部数据源
对于spark外部数据源来说,要先了解这几个类 BaseRelation:定义数据的schema信息,把我们的数据转成RDD[Row] RelationProvider:是一个relation的提供者,创建BaseRelation TableScan:读取数据并构建行,拿出所有的数据 PrunedScan:列裁剪的 PrunedFilteredScan:列裁剪➕过滤 InsertableRelat...原创 2019-08-03 13:06:27 · 2601 阅读 · 0 评论