spark
婲落ヽ紅顏誶
这个作者很懒,什么都没留下…
展开
-
sparksql开窗函数和udf自定义函数
package com.lenovo.sparkSqlDemoimport org.apache.spark.sql.SparkSession//spark常用开窗函数object SparkSqlTest2 { case class Person(id:Int,name:String,age:Int,salary:Double,sex:Boolean,work:String,dept:Int) def main(args: Array[String]): Unit = { val原创 2020-07-15 18:16:47 · 226 阅读 · 0 评论 -
spark中累加器和广播变量的使用
package com.lenovo.sparkSqlDemoimport org.apache.spark.{SparkConf, SparkContext}//测试广播变量的使用object BroadcastDemo { def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local[3]").setAppName("broadcastDemo") val sc = ne原创 2020-07-15 18:12:11 · 97 阅读 · 0 评论 -
spark dataframe api操作
package com.lenovo.sparkSqlDemoimport org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}import org.apache.spark.sql.{Row, SparkSession}//DateFrame API 使用object SparkSqlTest { case class User(id: Int, name: String, age: In原创 2020-07-15 15:08:22 · 164 阅读 · 0 评论 -
Spark性能优化-数据倾斜调优
文章目录1 前言2 数据倾斜调优2.1 调优概述2.2 数据倾斜发生时的现象2.3 数据倾斜发生的原理2.4 如何定位导致数据倾斜的代码2.4.1 某个task执行特别慢的情况2.4.2 某个task莫名其妙内存溢出的情况2.5 查看导致数据倾斜的key的数据分布情况2.6 数据倾斜的解决方案2.6.1 解决方案一:使用Hive ETL预处理数据2.6.2 解决方案二:过滤...转载 2019-07-24 22:09:57 · 142 阅读 · 0 评论 -
spark性能调优-资源调优
在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总之,无论是哪...转载 2019-07-24 21:55:20 · 118 阅读 · 0 评论 -
sparkSQL
Spark SQLSpark SQL是用于结构化数据处理的一个模块。同Spark RDD 不同地方在于Spark SQL的API可以给Spark计算引擎提供更多地信息,例如:数据结构、计算算子等。在内部Spark可以通过这些信息有针对对任务做优化和调整。这里有几种方式和Spark SQL进行交互,例如Dataset API和SQL等,这两种API可以混合使用。Spark SQL的一个用途是执行S...转载 2019-07-07 11:13:06 · 183 阅读 · 0 评论 -
sparkStreaming
Spark Streaming(流处理)什么是流处理?一般流式计算会与批量计算相比较。在流式计算模型中,输入是持续的,可以认为在时间上是无界的,也就意味着,永远拿不到全量数据去做计算。同时,计算结果是持续输出的,也即计算结果在时间上也是无界的。流式计算一般对实时性要求较高,同时一般是先定义目标计算,然后数据到来之后将计算逻辑应用于数据。同时为了提高计算效率,往往尽可能采用增量计算代替全量计算。...转载 2019-07-05 09:35:04 · 176 阅读 · 0 评论 -
sparkRDD
- Apache Spark背景介绍Spark是一个快如闪电的统一分析引擎(计算框架)用于大规模数据集的处理。Spark在做数据的批处理计算,计算性能大约是Hadoop MapReduce的10~100倍,因为Spark使用比较先进的基于DAG 任务调度,可以将一个任务拆分成若干个阶段,然后将这些阶段分批次交给集群计算节点处理。MapReduce VS SparkMapReduce作为第一...转载 2019-07-05 09:31:45 · 307 阅读 · 0 评论 -
spark集群环境构建及java访问
Load & save 函数MySQL集成(引入MysQL驱动jar)<dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.47</versi...转载 2019-07-09 22:56:34 · 380 阅读 · 0 评论