Spark
ygl-97
cs
展开
-
初始化SparkContext
from pyspark import SparkConf, SparkContextconf = SparkConf().setMaster("local").setAppName("My App")sc = SparkContext(conf = conf)lines = sc.textFile("README.md")pythonLines = lines.filter(lambda lin...原创 2018-07-09 09:50:08 · 1371 阅读 · 0 评论 -
foreach与foreachPartition
概述RDD.foreachPartition/foreach这两个action的操作: 这两个action主要用于对每个partition中的iterator实行迭代的处理。通过用户传入的function对iterator进行内容的处理。foreach的操作在foreach中,传入一个function,这个函数的传入参数就是每个partition中,每次的foreach得到的一个rdd的kv实例,...转载 2018-07-09 10:47:11 · 4934 阅读 · 0 评论