Spark学习笔记五(Spark SQL,DataFrame和Dataset)

本文介绍了Spark中的DataFrame和Dataset,Dataset是1.6版本引入的强类型数据集合,而DataFrame是无类型的,类似于传统数据库中的表。DataFrame适合处理结构化数据,可以从多种数据源构建。Spark SQL则提供了SQL查询的接口,简化了操作流程。
摘要由CSDN通过智能技术生成

在Spark的早期版本中只有RDD,DataFrame和Dataset都是后续版本中引入的。

一,什么是Dataset

Dataset是在Spark 1.6中引入的新概念。Dataset和RDD类似,是分布式的数据集合,但其中存储的数据可以是typed或untyped。例如下面的json,表达一条IoT数据:

{“device_id”: 198164, “device_name”: “sensor-pad-198164owomcJZ”, “ip”: “80.55.20.25”, “cca2”: “PL”, “cca3”: “POL”, “cn”: “Poland”, “latitude”: 53.080000, “longitude”: 18.620000, “scale”: “Celsius”, “temp”: 21, “humidity”: 65, “battery_level”: 8, “c02_level”: 1408, “lcd”: “red”, “timestamp” :1458081226051}

我们可以在Scala中定义一个类:

case class DeviceIoTData (battery_level: Long, c02_level: Long, cca2: String, cca3: String, cn
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值