spark
威风少侠
大数据开发工程师
展开
-
spark创建hive外部表失败
问题1:spark版本问题 一般碰到结尾为V,很可能是版本问题 <spark.version>2.4.0</spark.version> 问题2:一直报库不存在 org.apache.spark.sql.catalyst.analysis.NoSuchDatabaseException: Database 'user_profile0224' not found; 解决办法: a.检查hadooponwindows-master环境变量 b.增加配置 .se.原创 2021-12-06 00:32:24 · 2188 阅读 · 1 评论 -
Yarn的两种deploy-mode模式(client/cluster)
区别 yarn 有两种模式,分别是 client 和 cluster,那么它们有什么区别呢? Driver的运行位置: client:Driver运行在Client端(即提交作业的机器); cluster:Driver运行在ApplicationMaster中; 客户端是否能退出 client:因为client会和请求到的Container进行通信来完成作业的调制和执行,所以不能退出; cluster:clinet只要提交完作业后就可以关掉,因为作业已经在yarn运行了; ApplicationMas原创 2021-07-27 11:46:52 · 1277 阅读 · 0 评论 -
spark的广播变量使用broadcast
使用广播, 大幅度减少 value 的复制 def bc2(): Unit = { // 数据, 假装这个数据很大, 大概一百兆 val v = Map("Spark" -> "http://spark.apache.cn", "Scala" -> "http://www.scala-lang.org") val config = new SparkConf().setMaster("local[6]").setAppName("bc") val sc = ne原创 2021-06-22 15:39:56 · 260 阅读 · 0 评论 -
sparkstreaming+Direct模式kakfa+手动提交offset到MySQL
package cn.itcast.streaming import java.sql.{DriverManager, ResultSet} import org.apache.kafka.clients.consumer.ConsumerRecord import org.apache.kafka.common.TopicPartition import org.apache.kafka.common.serialization.StringDeserializer import org.apach.原创 2021-04-28 14:16:59 · 414 阅读 · 0 评论 -
spark中获取配置文件两种方式Properties和ConfigFactory
1.方式一: 利用类加载器获取到指定的配置文件 // 通过类的加载器获取到对应的配置文件 val stream = getClass.getClassLoader.getResourceAsStream("application.conf") val prop = new Properties() prop.load(stream) val sqlUrl = prop.getProperty("db.url") println(sqlUrl) 2方式二:利用Typesafe的Config库。 Co原创 2021-04-21 08:56:36 · 2119 阅读 · 0 评论 -
spark数据倾斜问题
1.Spark出现数据倾斜场景: 1.在join的时候,有很多数据的join的值为空值.那么这个时候所有空值的数据都会分配到一个task中从而出现数据倾斜 解决方案:过滤空值 2,当分区数设置过小,导致很多key聚集到一个分区从而导致数据倾斜 解决方案:增大分区数 3.某个key特别多的groupBy的时候出现倾斜 解决方案:局部聚合+全局聚合 4.大表join小表,因为大表中某一个key的数据特...原创 2019-10-31 21:31:05 · 203 阅读 · 0 评论 -
Spark调优
Spark性能优化 task个数怎么划分设计 需要两个方向同时考虑: 1.spark程序的并行度[task个数=分区数] 2.硬件资源方面:分区数=cpu核数2-3倍 为什么需要调优 Spark的性能调优由开发调优、资源调优、数据倾斜调优、shuffle调优几个部分组成。开发调优和资源调优是所有Spark作业都需要注意和遵循的一些基本原则,是高性能Spark作业的基础;数据倾斜调优,主要用一套完整...原创 2019-10-31 21:29:55 · 98 阅读 · 0 评论 -
spark任务执行流程
原创 2019-10-31 21:11:53 · 147 阅读 · 0 评论