转换算子(Transformation):
- map(func) : 返回一个新的分布式数据集,由每个原元素经过func函数转换后组成。
- mapPartitions(func) : 与map类似,但map中的func作用的是RDD中的每个元素,而mapPartitions中的func作用的对象是RDD的一整个分区。所以func的类型是Iterator<T> =>Iterator<U>,其中T是输入RDD元素的类型。
- flatMap(func) : 类似于map,但是每一个输入元素,会被映射为0到多个输出元素(因此,func函数的返回值是一个Seq,而不是单一元素)。
- filter(func) : 返回一个新的数据集,由经过func函数后返回值为true的原元素组成。
- mapPartitionsWithIndex(func) : 与mapPartitions类似,但输入会多提供一个整数表示分区编号,所以func的类型是(Int,Iterator<T>) =>Iterator<U>,多一个Int。
- sample(withReplacement, frac, seed) : 其中withReplacement为true时表示抽样之后还放回,可以被多次抽样,false表示不放回;根据给定的随机种子seed,随机抽样出数量为frac的数据
- union(otherDataset) :