自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

C2401271680的博客

原创 spark方法

combineBK e y ()方法是Spark中一个比较核心的高级方法，键值对的一些其他高级方法的底层均是使用combineByKey（）方法实现的，如groupBy-Key（）方法、reduceByKey（）方法等。reduceByKey()方法将相同键的前两个值传给输入函数，方法产生一个新的返回值，新产生的返回值与RDD 中相同键的下一个值组成两个元素，再传给输入函数，直到最后每个键只有一个对应的值为止。keys方法返回一个仅包含键的RDD，value是方法返回一个仅包含值的RDD。

2024-05-11 19:13:49 533 2

原创 Spark大数据技术与应用

1）快速：逻辑回归算法（had一般需要多次迭代对存储数据进行迭代计算spark是hadoop MapReduce运行速度的100多倍.spark基于硬盘也快10多倍spark与Hadoop mapreduce的运行速度差异大的原因是spark的中间数据存放于内存中有更高的迭代效率而Hadoop mapreduce存放于hdfs中，涉及硬盘的读写故而运算效率低。Spark 的运行模式有 Local(也称单节点模式），Standalone(集群模式），Spark on Yarn(运行在Yarn上）

2024-03-05 20:46:46 837 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

C2401271680 CSDN认证博客专家 CSDN认证企业博客

码龄2年

IP 属地：湖北省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

2: 原创

185万+: 周排名

22万+: 总排名

1370: 访问

: 等级

50: 积分

28: 粉丝

29: 获赞

3: 评论

35: 收藏

私信

关注

热门文章

最新评论

spark方法
普通网友: 干货满满，实用性强，博主的写作风格简洁明了，让人一目了然。文章涵盖了很多实用的知识点。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
spark方法
CSDN-Ada助手: 很高兴看到您写了关于Spark方法的博客！combineByKey()方法的确是Spark中非常重要的高级方法，它在处理键值对数据时发挥着不可替代的作用。除了您提到的方法，还有很多其他高级方法也是基于combineByKey()方法实现的，这些方法的组合可以帮助我们更高效地处理大规模数据。如果您想进一步扩展您的知识和技能，可以尝试学习一下Spark中的shuffle操作和调优技巧。shuffle是Spark中非常重要的一个概念，了解shuffle的原理和如何避免过多的shuffle操作可以帮助我们提升作业的效率和性能。同时，对于一些常用的调优参数和技巧也是非常有益的，可以让我们更好地利用Spark的强大功能。希望您可以继续分享更多关于Spark的知识，期待您的下一篇博客！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
Spark大数据技术与应用
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/618168224。

最新文章

提示

确定要删除当前文章？

取消删除