三者的区别和联系:
RDD是一个抽象的数据数据集(描述信息)
DataFrame, Spark 1.x 是一个抽象的数据数据集,有描述信息(从哪里读取数据,怎么计算) + Schema信息字段的描述信息
DataSet在Spark1.6出现的,在Spark2.0将DataFrame和DataSet的的API进行了统一
DataSet是一个更正聪明,智能的RDD(有执行计划的RDD),被优化过的RDD,DataSet也有Schema,还有一个Encoder
DataFrame是DataSet的一种特殊形式,DataSet[Row]就是DataFrame
DataSet中装的数据是强一致性