Spark学习笔记五(Spark SQL，DataFrame和Dataset)

最新推荐文章于 2024-03-24 12:11:10 发布

OnlyQi

最新推荐文章于 2024-03-24 12:11:10 发布

阅读量2.4k

点赞数

分类专栏： Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/OnlyQi/article/details/50687012

版权

本文介绍了Spark中的DataFrame和Dataset，Dataset是1.6版本引入的强类型数据集合，而DataFrame是无类型的，类似于传统数据库中的表。DataFrame适合处理结构化数据，可以从多种数据源构建。Spark SQL则提供了SQL查询的接口，简化了操作流程。

摘要由CSDN通过智能技术生成

在Spark的早期版本中只有RDD，DataFrame和Dataset都是后续版本中引入的。

一，什么是Dataset

Dataset是在Spark 1.6中引入的新概念。Dataset和RDD类似，是分布式的数据集合，但其中存储的数据可以是typed或untyped。例如下面的json，表达一条IoT数据：

{“device_id”: 198164, “device_name”: “sensor-pad-198164owomcJZ”, “ip”: “80.55.20.25”, “cca2”: “PL”, “cca3”: “POL”, “cn”: “Poland”, “latitude”: 53.080000, “longitude”: 18.620000, “scale”: “Celsius”, “temp”: 21, “humidity”: 65, “battery_level”: 8, “c02_level”: 1408, “lcd”: “red”, “timestamp” :1458081226051}

我们可以在Scala中定义一个类：

case class DeviceIoTData (battery_level: Long, c02_level: Long, cca2: String, cca3: String, cn

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

OnlyQi CSDN认证博客专家 CSDN认证企业博客

码龄14年

283: 原创

3万+: 周排名

54万+: 总排名

117万+: 访问

: 等级

1万+: 积分

69: 粉丝

94: 获赞

48: 评论

206: 收藏

私信

关注

热门文章

分类专栏

最新评论

多线程太可怕了
m0_37786387: 外包公司，大量裁员，慎入
多线程太可怕了
ChengSukai: 你解决了嘛?
Hierarchical Queries in Oracle
技术小白白~: Oracle理解很深入，看了大佬文章收获满满，平时可以多多交流，大佬可以给个WX吗？
Pandas中的groupby方法
系'辞: 【个人笔记】由作者得：dataframe.groupby().会根据所分类的值种类，分割为对应个数的dataframe，并且，仅返回dataframe格式。而，要想进一步使用，就得利用函数(“.函数名()”)、切片(“.[属性名]”)等方式处理
Python的Module和Package
Tisfy: 深得人心，正如古人云：别来几春未还家，玉窗五见樱桃花。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。