DataFrame

目录

一、概述

二、创建

三、保存

四、常用操作

              1、printSchema()

              2、select()

              3、filter()

              4、groupBy()

              5、sort()


一、概述

Spark Core所使用的的数据抽象是RDD(弹性分布式数据集);

Spark SQL所使用的的数据抽象是DataFrame(带有Schema信息的RDD);

RDD是分布式的 Java对象的集合,但是,对象内部结构对于RDD而言却是不可知的。

DataFrame是一种以RDD为基础的分布式数据集,提供了详细的结构信息。

只不过RDD就像一个空旷的屋子,你要找东西要把这个屋子翻遍才能找到。那我们的这个DataFrame相当于在你的屋子里面打上了货架。那你只要告诉他你是在第几个货架的第几个位置,那不就是二维表吗。那就是我们DataFrame就是在RDD基础上加入了列。实际上我们处理数据就像处理二维表一样。

二、创建

Spark使用SparkSession接口替代SQLContextHiveContext接口来实现其对数据加载、转换、处理等功能。SparkSession实现了SQLContextHiveContext所有功能。

SparkSession支持从不同的数据源加载数据,并把数据转换成DataFrame

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值