RDD、DataFrame、DataSet、SQLContext,HiveContext

RDD

spark最基础的分布式数据集,RDD提供了很多api来操作这个数据集中的数据,Rdd中的每一列没有scheme,没有标识。

DataFrame

spark的高级抽象,在RDD的分布式数据集上,加上了scheme的信息,每一列都有标识,标识这一列的名称和类型。提供了更多的api,这些api能实现类似sql的操作,底层实现还是RDD

DataSet

DataSet结合了RDD和DataFrame的优点, 并带来的一个新的概念Encoder

当序列化数据时, Encoder产生字节码与off-heap进行交互, 能够达到按需访问数据的效果, 而不用反序列化整个对象。在spark2.0中,DataFrame能无缝转换成DataSet

SQLContext

可以使用.sql()方法,直接查询表中的数据,将返回的数据封装成DataFrame,SQLContext中维护一套表,其实底层就是DataFrame,这个sql可以直接对表中的数据做SQL操作。sqlContext能从不同的数据源加载数据,将数据转换成DataFrame,也能将DataFrame转换成sqlContext自身中的表,使用sql来操作数据。

HiveContext

hiveContext继承自SQLContext,除了SQLContext中的功能之外,还具有直接操作hive库中表的数据,和HQL兼容。如果访问hive库,需要将hive-site.xml复制到spark的conf下。

参考:Spark RDD、DataFrame和DataSet的区别

转载于:https://my.oschina.net/cjun/blog/655263

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值