spark
你携秋水揽星河
ㅤㅤㅤ
展开
-
spark的UDF和UDAF用法
UDF(user defined function) UDF: 输入一行, 返回一个结果. 一对一关系 放入函数一个值, 就返回一个值, 而不会返回多个值. 如下面的例子就可以看出: (x: String) => "Name=" + x 这个函数, 入参为一个, 返回也是一个, 而不会返回多个值. 来个demo: In路径下的user.txt文件内容如下: {...原创 2020-03-14 10:19:20 · 1662 阅读 · 0 评论 -
Spark实现自定义排序
需求: 对于有复杂排序条件的需求,可以利用自定义排序来实现,同时可以使用多种方案实现自定义排序需求。 对指定的数据(字段分别为:名称 年龄 颜值,数据以空格分割),按照指定的要求排序,排序要求为:根据颜值降序,如果颜值相同,再按照年龄升序排序 先看下面代码: object DefinitionSort { def main(args: Array[String]): Unit = { ...转载 2020-03-09 19:04:57 · 369 阅读 · 0 评论 -
spark实现WordCount(多种实现方式)
第一种方式: 文件内容: object WordCount { def main(args: Array[String]): Unit = { val conf: SparkConf = new SparkConf().setMaster("local").setAppName("WordCount") /// 创建Spark上下文对象 val sc = new ...原创 2020-02-21 18:04:48 · 2064 阅读 · 0 评论 -
Spark基础知识梳理
用户提交的应用程序代码在spark中运行起来就是一个driver,用户提交的程序运行起来就是一个driver,他是一个一段特殊的excutor进程,这个进程除了一般excutor都具有的运行环境外,这个进程里面运行着DAGscheduler Tasksheduler Schedulerbackedn等组件。 官方例子中计算π值的程序代码在spark上运行起来就是一个driver,可以看到这段程...原创 2020-02-21 15:48:13 · 296 阅读 · 0 评论 -
基于yarn执行spark程序(client模式)报错如下:Yarn application has already ended! It might have been killed or unabl
在yarn上执行spark程序, 是client模式, 然后冒出了以下错误: 20/02/12 16:08:04 ERROR spark.SparkContext: Error initializing SparkContext. org.apache.spark.SparkException: Yarn application has already ended! It might have ...原创 2020-02-12 16:34:59 · 783 阅读 · 0 评论 -
Spark-2.3.4之HA模式搭建
首先搭建HA模式必须要有zookeeper集群。 同时zookeeper正常安装并启动。 主机规划图(Spark-HA模式): 主机规划路线 1. 在搭建的时候,要把先启动zookeeper进程。 2. 进入spark的conf文件夹修改spark-env.sh文件: 可以使用Notepad++来连接Linux系统,通过Notepad++来修改配置文件。 //通过Notepad++来修改spa...原创 2019-10-23 10:27:34 · 263 阅读 · 0 评论