spark编程进阶--spark sql结构化数据，文件处理

彤彤彤彤彤.

已于 2024-05-13 23:10:03 修改

阅读量462

点赞数 5

文章标签： pycharm ide python

于 2024-05-12 18:01:05 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_77732460/article/details/138757328

版权

导jar包方法

启动所有环境设置

hadoop环境已经好了

导入jars包新建com.example包

将house.txt放入/export/data目录下修改两个路径

建jar包

修改name，更改路径（易找），双击导入jar包点击apply

Buid一下

buid完会出现一个out包

把jar包导进去（可拖拽） *jar包在刚刚设置的路径中我的在d盘根据自己设置找

去到东西所在的目录导包

至此显示表示已经完成导包

SparkSQL练习

通过文件直接创建DataFrame

创建yrt.txt 转换为DataFrame

创建DataFrame对象movies

显示所有字符(默认显示前20条）

获取第一条记录

head（）方法获取前3条记录

take（）方法获取前3条记录

takeAsList（）方法获取前3条数据，并以列表的形式展现

使用collec（）方法获取数据

使用collectAsList（）方法获取数据

创建DataFrame对象rating和user

Where（）方法查询—使用where查询user对象中性别为女且年龄为18岁的用户信息

查看查询结果的前3条信息

filter()方法查询--使用filter查询user对象中性别为女且年龄为18岁的用户信息

查看查询结果的前3条信息

select()方法--使用select方法查询user对象中userId及gender字段的数据，查看查询结果的前3条信息

selectExpr（）--对指定字段进行特殊处理

selectExpr（）方法查询，查看查询结果的前3条信息

col()方法--查询user对象中zip字段的数据，查看查询结果

apply()方法--查询user对象中zip字段的数据，查看查询结果

limit()方法--查询user对象前3条记录查看查询结果

orderBy()--用oederBy根据userId字段对user对象进行降序排序，查看结果的前3条信息

sort()--用sort根据userId字段对user对象进行升序排序，查看结果的前3条信息

groupBy()方法--根据gender字段对user对象进行分组

GroupedData()方法--根据gender字段对user对象进行分组，并计算分组中的元素个数

join()方法--允许笛卡尔积操作，使用join(right:DataFrame)方法链接Rating和user两个DataFrame数据，查看前三条记录

使用join(right:DataFrame,joinExprs:Column)方法根据userId字段链接rating和user，查看前3条记录

join(right:DataFrame,joinExprs:Column,joinType:String)方法链接查询，查看前3条记录

彤彤彤彤彤.

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

彤彤彤彤彤. CSDN认证博客专家 CSDN认证企业博客

码龄1年

4: 原创

162万+: 周排名

19万+: 总排名

1347: 访问

: 等级

57: 积分

20: 粉丝

14: 获赞

3: 评论

14: 收藏

私信

关注

热门文章

最新评论

spark编程进阶--spark sql结构化数据，文件处理
普通网友: 博主的文章让我对这个主题有了全新的认识，细节描写非常到位，让我感受到了博主的深厚功底。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Spark编程基础
CSDN-Ada助手: 很高兴看到您写了第二篇博客！继续保持创作的热情和努力，你一定会取得更大的进步。除了内部和外部数据源的介绍，对于Spark编程来说，还可以深入了解RDD的转换操作和行动操作，以及如何优化Spark作业的性能，比如合理设置分区数、使用缓存等技巧。希望您在学习和实践中不断积累经验，写出更加深入和有价值的内容！加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
每天一点Spark
咿呀咿呀奕: 精辟

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。