Spark RDD、DataSet、DataFrame--区别（个人理解）

最新推荐文章于 2024-04-18 12:46:45 发布

Enche

最新推荐文章于 2024-04-18 12:46:45 发布

阅读量2.4k

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Enche/article/details/79754319

版权

描述：实验将系统数据分别转换成RDD，DataSet、DataFrame，然后进行比较，数据有四列，分别起名为a、b、c、d。

class People(a:String, b:String, c:String, d:String)

RDD：转换成RDD[People]后，发现每个记录为一个People对象，在进行map操作时候，若想对每个记录进行操作，必须通过map(p=>p.属性) 通过p.属性进行每个People对象操作。但是直接从RDD上来看，是看不出来People的属性。

scala> peoples

peoples res20: org.apache.spark.rdd.RDD[People] = MapPartitionsRDD[2] at map at <console>:27

scala> peoples.map(p=>p.)

a canEqual equals productElement toString

b copy hashCode productIterator
c d productArity productPrefix

scala> peoples.map(p=>p.)

p.的候选项可以看出需要通过p.属性名操作记录对象的属性

DataFrame：转换成DataFrame后，每行为一个Row&#

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Spark RDD、DataSet、DataFrame--区别（个人理解）

描述：实验将系统数据分别转换成RDD，DataSet、DataFrame，然后进行比较，数据有四列，分别起名为a、b、c、d。class People(a:String, b:String, c:String, d:String)RDD：转换成RDD[People]后，发现每个记录为一个People对象，在进行map操作时候，若想对每个记录进行操作，必须通过map(p=&gt;p.属性) 通过p....
复制链接

扫一扫

专栏目录

Enche CSDN认证博客专家 CSDN认证企业博客

码龄7年

42: 原创

25万+: 周排名

158万+: 总排名

7万+: 访问

: 等级

1100: 积分

21: 粉丝

22: 获赞

19: 评论

128: 收藏

私信

关注

热门文章

分类专栏

JAVA JDBC 1篇
ORACLE 1篇
web页面 2篇
机器学习 21篇
记事本 3篇
scala 3篇
BigData 1篇
Hadoop 7篇
Linux 1篇

最新评论

Spark入门案例--出租车数据分析
卷毛迷你猪: val result = time_prediction.groupBy("hour", "prediction") .agg(("prediction", "count")) .orderBy(desc("count(prediction)")) .filter(row=>row.getString(0)=="15") result.show() hour字段是string 不能直接转换的，我乱写了一个
Spark--SVM（支持向量机）--记录
Tony Einstein: spark.read.format("libsvm").load(path)的spark.read.format("libsvm")是把读取的数据格式化为libsvm格式吗？？？这种格式是怎么样的呢？求解
Spark入门案例--出租车数据分析
天洋行空回复 Lurkerhunter: 同问好像是成都的？https://blog.csdn.net/qq_45514064/article/details/107211915?%3E
TensorFlow--卷积神经网络&GPS数据预测区块车流量大小模型测试代码
qq_41937736: 博主你好！有几个问题想询问一下。关于taxi.csv，我的理解是中第二三列为经纬度，第四列为时刻，请问第一列的数字是什么意思？train.csv中的数据是通过处理taxi.csv得到的吗?请问具体是怎么得到的？
python+opencv 车牌识别实现
Cold____: 很好奇这个赞谁点的

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。