spark3快速入门

飞奔的帅帅

已于 2022-06-13 12:27:30 修改

阅读量589

点赞数

分类专栏： spark 文章标签： spark big data scala

于 2022-06-12 17:49:36 首次发布

本文链接：https://blog.csdn.net/ustbbsy/article/details/125247459

版权

简介

在 Spark 2.0 之前，Spark 的主要编程接口是弹性分布式数据集（RDD）。在 Spark 2.0 之后，RDD 被 Dataset 取代，它像 RDD 一样是强类型的，但在底层进行了更丰富的优化。仍然支持 RDD 接口，您可以在RDD 编程指南中获得更详细的参考。但是，我们强烈建议您改用 Dataset，它的性能比 RDD 更好。请参阅SQL 编程指南以获取有关数据集的更多信息。

也就是Spark1，对应RDD; Spark2, 对应 Dataset

Interactive Analysis with the Spark Shell

pyspark

>>> textFile = spark.read.text("README.md")
>>> textFile.count()  # Number of rows in this DataFrame
126

>>> textFile.first()  # First row in this DataFrame
Row(value=u'# Apache Spark')