- 博客(2)
- 收藏
- 关注
原创 spark方法
combineBK e y ()方法是Spark中一个比较核心的高级方法,键值对的一些其他高级方法的底层均是使用combineByKey()方法实现的,如groupBy-Key()方法、reduceByKey()方法等。reduceByKey()方法将相同键的前两个值传给输入函数, 方法产生一个新的返回值,新产生的返回值与RDD 中相同键的下一个值组成两个元素,再传给输入函数,直到最后每个键只有一个对应的值为止。keys方法返回一个仅包含键的RDD,value是方法返回一个仅包含值的RDD。
2024-05-11 19:13:49 533 2
原创 Spark大数据技术与应用
1)快速 :逻辑回归算法(had一般需要多次迭代对存储数据进行迭代计算spark是hadoop MapReduce运行速度的100多倍.spark基于硬盘也快10多倍spark与Hadoop mapreduce的运行速度差异大的原因是spark的中间数据存放于内存中有更高的迭代效率而Hadoop mapreduce存放于hdfs中,涉及硬盘的读写故而运算效率低。Spark 的运行模式有 Local(也称单节点模式),Standalone(集群模式),Spark on Yarn(运行在Yarn上)
2024-03-05 20:46:46 837 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人