RDD
spark最基础的分布式数据集,RDD提供了很多api来操作这个数据集中的数据,Rdd中的每一列没有scheme,没有标识。
DataFrame
spark的高级抽象,在RDD的分布式数据集上,加上了scheme的信息,每一列都有标识,标识这一列的名称和类型。提供了更多的api,这些api能实现类似sql的操作,底层实现还是RDD
DataSet
DataSet结合了RDD和DataFrame的优点, 并带来的一个新的概念Encoder
当序列化数据时, Encoder产生字节码与off-heap进行交互, 能够达到按需访问数据的效果, 而不用反序列化整个对象。在spark2.0中,DataFrame能无缝转换成DataSet
SQLContext
可以使用.sql()方法,直接查询表中的数据,将返回的数据封装成DataFrame,SQLContext中维护一套表,其实底层就是DataFrame,这个sql可以直接对表中的数据做SQL操作。sqlContext能从不同的数据源加载数据,将数据转换成DataFrame,也能将DataFrame转换成sqlContext自身中的表,使用sql来操作数据。
HiveContext
hiveContext继承自SQLContext,除了SQLContext中的功能之外,还具有直接操作hive库中表的数据,和HQL兼容。如果访问hive库,需要将hive-site.xml复制到spark的conf下。
参考:Spark RDD、DataFrame和DataSet的区别