自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 spark方法

combineBK e y ()方法是Spark中一个比较核心的高级方法,键值对的一些其他高级方法的底层均是使用combineByKey()方法实现的,如groupBy-Key()方法、reduceByKey()方法等。reduceByKey()方法将相同键的前两个值传给输入函数, 方法产生一个新的返回值,新产生的返回值与RDD 中相同键的下一个值组成两个元素,再传给输入函数,直到最后每个键只有一个对应的值为止。keys方法返回一个仅包含键的RDD,value是方法返回一个仅包含值的RDD。

2024-05-11 19:13:49 533 2

原创 Spark大数据技术与应用

1)快速 :逻辑回归算法(had一般需要多次迭代对存储数据进行迭代计算spark是hadoop MapReduce运行速度的100多倍.spark基于硬盘也快10多倍spark与Hadoop mapreduce的运行速度差异大的原因是spark的中间数据存放于内存中有更高的迭代效率而Hadoop mapreduce存放于hdfs中,涉及硬盘的读写故而运算效率低。Spark 的运行模式有 Local(也称单节点模式),Standalone(集群模式),Spark on Yarn(运行在Yarn上)

2024-03-05 20:46:46 837 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除