spark方法总结

柒seven.

已于 2024-05-16 19:36:34 修改

阅读量719

点赞数 8

文章标签： spark 大数据分布式

于 2024-05-16 19:35:25 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_80464770/article/details/138971539

版权

目录

1.从内存读取数据创建RDD

parallelize()方法：通过调用SparkContext的parallelize方法，在一个已经存在的Scala集合上创建的（一个Seq对象）。集合的对象将会被拷贝，创建出一个可以被并行操作的分布式数据集。

makeRDD()方法：只有scala版本的才有makeRDD，和parallelize类似。makeRDD方法实际上是将传入的集合和分区数两个参数传给parallelize方法然后将返回结果作为参数传给withScope方法调用

2.从外部存储系统读取数据创建RDD

二：对数据进行操作的方法

1.map()方法转换数据

2.sortBy()方法排序

3.collect()方法查询数据

4.flatMap()方法转换数据

5.take()查询某几个值

6.union()方法合并多个RDD

7.distinct()方法去重

8.intersection()方法用于求出两个RDD的共同元素

9.subtract()方法用于将前一个RDD中在后一个RDD出现的元素删除

10.使用键值对RDD的keys和values方法

11.使用键值对RDD的reduceByKey()方法

12.使用键值对RDD的groupByKey()方法

13.使用join()方法连接两个RDD

14.使用zip()方法组合两个RDD

15.使用combineByKey()方法合并相同键的值

16.使用lookup()方法查找指定键的值

17.读取和存储文件

查看内容：rdd.collect

三：DataFrame基础操作

1.通过Parquet文件创建DataFrame

2.通过json文件创建DataFrame

3.通过外部数据库创建DataFrame

4.通过RDD创建DataFrame

5.查看DataFrame数据

1.printSchema:输出数据模式

2.show():查看数据:默认查看20行

3.first()/head()/take()/takeAslist():获取若干条记录

4.collect()/collectAslist()：获取所有数据

6.DataFrame查询操作

1.where()方法：查询符合指定条件的数据

2.filter()筛选符合条件的数据

3.select()/selectExpr()/col()/apply()方法

4.col()/apply()方法：获取指定字段，但只可以获取一个字段，返回的是一个Column对象

5.limit()方法：指定获取前n条记录

6.order()/sort()方法：根据指定字段进行排序，默认为升序

7.groupBy()方法：根据指定字段分组操作

一.创建RDD

1.从内存读取数据创建RDD

parallelize()方法：通过调用SparkContext的parallelize方法，在一个已经存在的Scala集合上创建的（一个Seq对象）。集合的对象将会被拷贝，创建出一个可以被并行操作的分布式数据集。

例：

data = [1, 2, 3, 4, 5]

distData = sc.parallelize(data)

makeRDD()方法：只有scala版本的才有makeRDD，和parallelize类似。makeRDD方法实际上是将传入的集合和分区数两个参数传给parallelize方法然后将返回结果作为参数传给withScope方法调用

例：

val seq = Seq(1,Seq("iteblog.com","sparkhost1.com")),

(3,Seq("iteblog.com","sparkhost2.com")),

(2,Seq("iteblog.com","sparkhost3.com")),

val iteblog = sc.makeRDD(seq)

2.从外部存储系统读取数据创建RDD

通过HDFS文件创建RDD

例：

val test = sc.textFile("/opt/spark.txt")

二：对数据进行操作的方法

1.map()方法转换数据

2.sortBy()方法排序

3.collect()方法查询数据

4.flatMap()方法转换数据

5.take()查询某几个值

6.union()方法合并多个RDD

7.distinct()方法去重

8.intersection()方法用于求出两个RDD的共同元素

9.subtract()方法用于将前一个RDD中在后一个RDD出现的元素删除

10.使用键值对RDD的keys和values方法

11.使用键值对RDD的reduceByKey()方法

12.使用键值对RDD的groupByKey()方法

13.使用join()方法连接两个RDD

14.使用zip()方法组合两个RDD

15.使用combineByKey()方法合并相同键的值

16.使用lookup()方法查找指定键的值

17.读取和存储文件

读取：例

val input = sc.textFile("testjson.json")

查看内容：rdd.collect

存储：例

sc.parallelize(jsons).repartition(1).saveAsTextFile("json_out")

三：DataFrame基础操作

1.通过Parquet文件创建DataFrame

例：

val df = saprk.read.load("/opt/user.parquet")

2.通过json文件创建DataFrame

例：

val df = saprk.read.format("json").load("/opt/user.json")

3.通过外部数据库创建DataFrame

4.通过RDD创建DataFrame

方法一：

定义一个样例类

case class person(name:String,age:Int)

读取文件创建RDD

val data = sc.textFile("/opt/test.txt").map(_.split(","))

RDD转成DataFrame

val user = data.map(p => person(p(0),p(1),p(2).toInt)).toDF()

方法二：

5.查看DataFrame数据

1.printSchema:输出数据模式

2.show():查看数据:默认查看20行

例：

user.show() //显示前20条数据

user.show(50) //显示前50条数据

3.first()/head()/take()/takeAslist():获取若干条记录

4.collect()/collectAslist()：获取所有数据

6.DataFrame查询操作

1.where()方法：查询符合指定条件的数据

例：

val userwhere = user.where("age = 18 and gender = 'f' ")

2.filter()筛选符合条件的数据

例：

val userwhere = user.filter("age = 18 and gender = 'f' ")

3.select()/selectExpr()/col()/apply()方法

select:例：

val userSelect = user.select("userId","gender") //显示userId,gender字段

selectExpr:例：

val userSelect = user.selectExor("userId","gender as xx") //显示userId,gender字段,并把gender字段取名为xx

4.col()/apply()方法：获取指定字段，但只可以获取一个字段，返回的是一个Column对象

例：

val userSelect = user.col("userId") //显示userId字段

val userSelect = user.apply("userId") //显示userId字段

5.limit()方法：指定获取前n条记录

例：

val user = user.limit(3) //返回前3条记录

6.order()/sort()方法：根据指定字段进行排序，默认为升序

val user = user.orderBy(desc("ID")) //根据id降序排列

val user = user.orderBy(asc("ID")) //根据id升序排列

7.groupBy()方法：根据指定字段分组操作

例：

val user = user.groupBy(user("gender")).count //根据gender字段对user进行分组，并计算元素个数

关注

8
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
spark方法总结

例：data = [1, 2, 3, 4, 5] distData = sc.parallelize(data) 例：val seq = Seq(1,Seq("iteblog.com","sparkhost1.com")),(3,Seq("iteblog.com","sparkhost2.com")),(2,Seq("iteblog.com","sparkhost3.com")),val iteblog = sc.makeRDD(seq)通过HDFS文件创建RDD例：val test = sc.text
复制链接

扫一扫

柒seven. CSDN认证博客专家 CSDN认证企业博客

码龄1年

18: 原创

109万+: 周排名

6万+: 总排名

8631: 访问

: 等级

331: 积分

130: 粉丝

147: 获赞

10: 评论

82: 收藏

私信

关注

热门文章

最新评论

idea打jar包到集群环境下运行
在第17分: 还是没做成功
exharts无人售货机案例分析
CSDN-Ada助手: 恭喜您发布了第17篇博客“exharts无人售货机案例分析”，内容非常有深度和实用性！持续创作十分不易，您的努力和坚持可嘉。希望您在未来的创作中可以更深入地探讨案例分析的细节和实践经验，为读者提供更多有价值的参考和启发。期待您更多精彩的文章，加油！
idea打jar包到集群环境下运行
CSDN-Ada助手: 恭喜您写了第15篇博客，“idea打jar包到集群环境下运行”，内容非常实用！希望您能继续分享更多关于技术方面的经验和心得体会。或许下一步可以尝试写一些关于优化代码性能或者实战经验的文章，让更多人受益。期待您的下一篇博客！愿您在创作的道路上不断前行，谦虚学习，不断进步！
echarts水印操作和多表联动
CSDN-Ada助手: 恭喜您发布了第14篇博客！看到您分享关于echarts水印操作和多表联动的内容，让我受益匪浅。希望您能继续保持创作的热情，不断分享您的经验和技巧。下一步，或许可以考虑深入探讨echarts的其他功能或者结合实际案例进行分析，这样会给读者带来更多启发和帮助。期待您更多精彩的分享！
scala函数练习题
CSDN-Ada助手: 恭喜用户在scala函数练习题上的探索与分享！持续创作是提高技能的最好方式，建议下一步可以尝试挑战更多复杂的函数题目，或者分享一些实用的scala函数技巧，期待您更多精彩的作品！加油！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。