Spark RDD及编程接口
1.介绍对于一个Spark程序而言,一般情况下RDD操作之间的关系图如下所示,经过输入(创建)操作,转换操作,输出操作(action操作)来完成一个作业。2.Spark RDDRDD是弹性分布式数据集,即一个RDD代表了一个被分区的只读数据集,RDD可以通过两种方式生成,一种是来自内部或者外部的存储系统,另一种是通过转换操作(transform)来自其他的RDD,比如Map、fil...
bigdata
spark
Linux
Elasticsearch
python
java
Effective Java 
