collect:将分布式存储在集群上的分布式数据集(比如dataset),中的所有数据都获取到driver端来
employee.collect().foreach { println(_) }
foreach:遍历数据集中的每一条数据,对数据进行操作,这个跟collect不同,
collect是将数据获取到driver端进行操作
foreach是将计算操作推到集群上去分布式执行
foreach(println(_))这种,真正在集群中执行的时候,是没用的,因为输出的结果是在分布式的集群中的,我们是看不到的
//补源码分析