第59课：使用Java和Scala在IDE中实战RDD和DataFrame转换操作’学习笔记

最新推荐文章于 2022-06-20 17:29:16 发布

梦飞天

最新推荐文章于 2022-06-20 17:29:16 发布

阅读量2.3k

点赞数

分类专栏： Spark 文章标签： SparkSQL DataFrame RDD

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/slq1023/article/details/51002600

版权

本文介绍了在Spark中RDD到DataFrame转换的重要性，包括简化大数据开发和便于数据处理。通过Java和Scala的示例展示了如何使用反射和DataFrame API将RDD转换为DataFrame，并实现数据过滤操作。文章还提到了转换过程中可能遇到的权限和序列化问题及其解决方案。

摘要由CSDN通过智能技术生成

第59课：使用Java和Scala在IDE中实战RDD和DataFrame转换操作’学习笔记

本期内容：

1 RDD与DataFrame转换的重大意义

2 使用Java实战RDD与DaraFrame转换

3 使用Scala实战RDD与DataFrame转换

一． RDD与DataFrame转换的重大意义

在Spark中RDD可以直接转换成DataFrame。SparkCore的核心是RDD，所有的调度都是基于RDD完成的，对RDD的操作都可以转换成基于DataFrame使用SparkSQL来操作。RDD可能接上数据库，接上NoSQL，其他文件系统等各种数据来源，然后将数据转换为DataFrame，

极大简化了大数据的开发，原来写Scala\Java，现在只需要写SparkSQL。

同时对DataFrame的操作又可以转换成RDD，基于DataFrame对数据进行SQL或机器学习等操作后又可以转换为RDD，这对于保存数据、格式化非常方便。

RDD变DataFrame有两种方式：

1.通过反射，推断RDD元素中的元数据。

RDD中的数据本身是没有元数据的，例如一个Person的信息里有id/name/age，RDD的Record不知道id/name/age这些信息，但如果变成DataFrame的话，DataFrame必须知道这些信息。如何在RDD和DataFrame转换时拥有这些元数据信息呢？最简单的就是通过反射。

在Scala中就是Case Class映射。写一个Case Class，描述RDD中不同列的元数据是什么。

在Java中就是通过JavaBean。

Scala：case class映射。

Java：Bean（但不能支持嵌套的JavaBean，也不能有List/Map等复杂的数据结构。只能用简单的数据类型：String/Int等。Scala就没有这些限制）

使用反射的前提：已经知道元数据信息了（静态的）。但有些场景下只有在运行时才能知道元数据信息（动态的）

2. 创建DataFrame时事先不知道元数据信息，只能在运行时动态构建元数据。然后再把这些元数据信息应用于RDD上。这种情况是比较常见的情况，即动态获取Schema。

class Person{

private int id;

private String name;

private int age;

}

点击右键，选择source -> Generate Getters and Setters

选择age、id、name后点击OK。

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

梦飞天 CSDN认证博客专家 CSDN认证企业博客

码龄13年

142: 原创

7万+: 周排名

1万+: 总排名

31万+: 访问

: 等级

4438: 积分

154: 粉丝

76: 获赞

68: 评论

163: 收藏

私信

关注

热门文章

分类专栏

c语言 1篇
其他 1篇
docker 2篇
scala编程 66篇
人生 1篇
scala 1篇
hadoop 22篇
Spark 29篇
虚拟机
人工智能 12篇
django 1篇
python 8篇
tensorflow 9篇
keras 2篇

最新评论

mmdetection训练报错
coincidewith: 这样怎么改啊，the model and loaded state dict do not match exactly的警告虽然不影响运行，但是最后精度不是很高，我怀疑根本就没用上啊，崩溃了
mmdetection训练报错
coincidewith: 但是精度达不到预期啊，我都要怀疑根本没用上了
ubuntu16.04安装P106-100显卡驱动
starrywelkin: 这个方法我照着试了下发下不行可能是之后出的显卡驱动把这张卡屏蔽掉了
mmdetection训练报错
艰难的伪程序员: 这个不影响？
mmdetection训练报错
张渝俊: 出现这个问题可能是配置文件和你权重文件不匹配，或者说，你修改了模型，进行训练，但是你本地对应的文件，没有进行类似的修改

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。