Spark|Spark 的 tranformer 算子和 action 算子整理
将数据集的元素以 Hadoop SequenceFile 的形式写入到指定路径中,可以是本地文件系统、HDFS 或任何其他受 Hadoop 支持的文件系统。将数据集的元素以文本文件(或一组文本文件)的形式写入到指定目录中,可以是本地文件系统、HDFS 或任何其他受 Hadoop 支持的文件系统。函数可以对 RDD 中的数据进行随机重分区,创建更多或更少的分区,并在它们之间实现负载均衡。的元素会被写入到进程的标准输入(stdin),而进程的标准输出(stdout)中的每一行会作为字符串的 RDD 返回。
原创
2023-09-07 18:12:54 ·
112 阅读 ·
0 评论