RDD:分布式数据集合,每个RDD放到集群的不同节点上。
RDD创建:SparkContext(sc)中的parallelize方法。
RDD转化操作:从一个RDD生成另一个RDD(filter)。
RDD行动:对RDD数据进行的一些操作,如take收集元素。
惰性求值:在调用行动不会立即执行,而是把操作信息存储起来。
传递函数:class、def。
笛卡尔积:两个数组分别相乘。
RDD持久化:每次调用行动都会执行一次,可用persist持久化。
RDD:分布式数据集合,每个RDD放到集群的不同节点上。
RDD创建:SparkContext(sc)中的parallelize方法。
RDD转化操作:从一个RDD生成另一个RDD(filter)。
RDD行动:对RDD数据进行的一些操作,如take收集元素。
惰性求值:在调用行动不会立即执行,而是把操作信息存储起来。
传递函数:class、def。
笛卡尔积:两个数组分别相乘。
RDD持久化:每次调用行动都会执行一次,可用persist持久化。