Spark
Spark相关知识
EnterPine
这个作者很懒,什么都没留下…
展开
-
Spark中RDD复杂算子 aggregate()、combineByKeyWithClassTag()与aggregateByKey()
1、aggregate()方法声明:def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U) => U): U = withScope {}方法声明中的重点:1、aggregate返回类型为传入的类型参数U2、第一个参数列表zeroValue为U类型的值,是聚合的初始值。3、两个函数类型的参数,官方注释如下: * @param seqOp an operator used to accu原创 2020-05-18 16:50:16 · 420 阅读 · 0 评论 -
RDD算子实现分组、连接字符串 (sql实现 contact_ws group by)
需求:有一个tuple数组,每个元组四个元素,需求按照 _2 _4 分组,_1 _3拼以 _ 拼接后,组内的再以 | 连接。sql实现为:select _2+_4,contact_ws(_1+_3,'|') from t1 group by _2+_4,改用RDD算子实现为:var arrFriend = ArrayBuffer[(String, String, Int, String)]...原创 2019-03-05 15:57:12 · 2905 阅读 · 0 评论 -
Spark2.x Java API 移除 DataFrame
Spark2.X 的 Java API 移除了DataFrame类,换为使用DataSet代替。对应的包为:import org.apache.spark.sql.Dataset;import org.apache.spark.sql.Row;原创 2019-02-18 11:15:11 · 807 阅读 · 1 评论 -
spark中 Dynamic Allocation 以及 num-executors 的问题
之前使用spark2.3.1的sparkstreaming时,发现 spark-submite 设置 num-executors10 时,没有起作用,spark作业的executors一度多大几百个,后来把dynamicAllocation.enabled false ,spark任务的executors才能限制在10。过一段时间,使用spark 1.6的saprk-sql时发现有...原创 2018-09-12 16:55:41 · 3309 阅读 · 0 评论