大数据 spark
文章平均质量分 61
foreverlove_ty
这个作者很懒,什么都没留下…
展开
-
Scala Option
Scala 使用 Option、Some、None,避免使用 Null避免 null 使用大多数语言都有一个特殊的关键字或者对象来表示一个对象引用的是"无",在 Java,它是 null。在 Java 里,null 是一个关键字,不是一个对象,所以对它调用任何方法都是非法的。但是这对语言设计者来说是一件令人疑惑的选择。为什么要在程序员希望返回一个对象的时候返回一个关键字呢?OptionSomeNoneScala 的 Option类型为了让所有东西都是对象的目标更加一致,也为了遵循函数式编转载 2021-10-01 22:15:49 · 155 阅读 · 0 评论 -
Scala函数
scala常用函数列举函数传名调用(Call-by-Name) 指定函数参数名函数 - 可变参数 递归函数默认参数值 高阶函数内嵌函数 匿名函数偏应用函数 函数柯里化(Function Currying)/** * Scala 中的方法跟 Java 的类似,方法是组成类的一部分。 * * Scala 中的函数则是一个完整的对象,Scala 中的函数其实就是继承了 Trait 的类的对象。 * * Scala 中使用 val 语句可以定义函数,def 语句定义方法。 */原创 2021-10-01 17:57:35 · 154 阅读 · 0 评论 -
SparkSql Join基本流程(hash join,broadcast join,shuffle hash join ,sort merge join)
Join表信息和sql表A : table_A,字段a1,a2,No表B : table_B,字段b1,b2,Noselect a1,a2,b1,b2 from table_A t_A join table_B t_B on t_A.No=t_B.No ;总体流程流程的设计step1 : 遍历table_A 表的所有记录,以过滤条件中的字段No的值进行分组,每个No值对于的A组数据,遍历出来,待用step2 : 遍历table_B 表的所有记录,同A的处理方式拿出A组数据去匹配B组数据原创 2021-09-25 23:43:28 · 1412 阅读 · 0 评论 -
Spark数据本地化常用级别
Spark中数据的本地化常用方式分为5种1、PROCESS_LOCAL : 进程本地化,指task计算的数据在本进程(Executor)中2、NODE_LOCAL:节点本地化,指task计算的数据在本节点(node)的磁盘上,当task在本进程中一直没有执行(如果Driver分发task 3s后没有执行,且重复5次后),此时Driver就把这个没有执行的task发送到本节点的其他execu...原创 2018-04-07 20:22:55 · 1693 阅读 · 0 评论