- 博客(2)
- 收藏
- 关注
原创 Spark中各类方法总结
在进行处理时, reduceByKey ()方法将相同键的前两个值传给输入函数,产生一个新的返回值,新产生的返回值与 RDD 中相同键的下一个值组成两个元素,再传给输入函数,直到最后每个键只有一个对应的值为止。使用 flatMap ()方法时先进行 map (映射)再进行 flat (扁平化)操作,数据会先经过跟 map ()方法一样的操作,为每一条输入返回一个迭代器(可迭代的数据类型),然后将所得到的不同级别的迭代器中的元素全部当成同级别的元素,返回一个元素级别全部相同的 RDD。
2024-05-09 20:02:42
1147
3
原创 Spark概述
结构化数据:即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。非结构化数据:不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。5.MapReduce和Spark的区别(1)Spark的速度比MapReduce快,Spark把运算的中间数据存放在内存,迭代计算效率更高;mapreduce的中间结果需要落地,需要保存到磁盘,比较影响性能;(2)spark容错性高,它通过弹性分布式数据集RDD来实现高效容错;
2024-03-04 17:36:08
896
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人