2024年最全物流项目中SparkSQL的相关调优_spark 物流(1)

最新推荐文章于 2024-06-22 14:20:43 发布

2401_84183802

最新推荐文章于 2024-06-22 14:20:43 发布

阅读量102

点赞数 2

分类专栏：程序员文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/2401_84183802/article/details/138406336

版权

程序员专栏收录该内容

120 篇文章 0 订阅

订阅专栏

		//本地环境LOCAL\_HADOOP\_HOME
		System.setProperty("hadoop.home.dir", Configuration.LOCAL_HADOOP_HOME)
		//设置运行环境和checkpoint路径
		sparkConf
			.set("spark.master", "local[3]")
			.set("spark.sql.streaming.checkpointLocation", Configuration.SPARK_APP_WIN_CHECKPOINT_DIR)
	} else {
		//生产环境
		sparkConf
			.set("spark.master", "yarn")
			.set("spark.sql.streaming.checkpointLocation", Configuration.SPARK_APP_DFS_CHECKPOINT_DIR)
	}
	// 3. 构建SparkSession实例对象
	val spark: SparkSession = SparkSession.builder()
		.config(sparkConf)
		.getOrCreate()
	import spark.implicits._
	
	// step2. 从Kafka实时消费数据，设置Kafka Server地址和Topic名称
	// step3. 将ETL转换后数据打印到控制台，启动流式应用
	// 4. 初始化消费物流Topic数据参数
	val logisticsDF: DataFrame = spark.readStream
		.format("kafka")
		.option("kafka.bootstrap.servers", "node2.itcast.cn:9092")
		.option("subscribe", "logistics")
		.option("maxOffsetsPerTrigger", "100000")
		.load()
	// 5. 消费物流Topic数据，打印控制台
	logisticsDF.writeStream
		.queryName("query-logistics-console")
		.outputMode(OutputMode.Append())
		.format("console")
		.option("numRows", "10")
		.option("truncate", "false")
		.start()
	
	// 6. 初始化消费CRM Topic数据参数
	val crmDF: DataFrame = spark.readStream
		.format("kafka")
		.option("kafka.bootstrap.servers", "node2.itcast.cn:9092")
		.option("subscribe", "crm")
		.option("maxOffsetsPerTrigger", "100000")
		.load()
	// 7. 消费CRM Topic数据，打印控制
	crmDF.writeStream
		.queryName("query-crm-console")
		.outputMode(OutputMode.Append())
		.format("console")
		.option("numRows", "10")
		.option("truncate", "false")
		.start()
	
	// step4. 流式应用启动以后，等待终止，关闭资源
	// 8. 启动流式应用，等待终止
	spark.streams.active.foreach(query => println("启动Query：" + query.name))
	spark.streams.awaitAnyTermination()
}

}



> 
> SparkSQL 参数调优设置：
> 
> 
> * 1）、设置会话时区：`set("spark.sql.session.timeZone", "Asia/Shanghai")`
> * 2）、设置读取文件时单个分区可容纳的最大字节数
> 
>  `set("spark.sql.files.maxPartitionBytes", "134217728")`
> * 3）、设置合并小文件的阈值：`set("spark.sql.files.openCostInBytes", "134217728")`
> * 4）、设置 shuffle 分区数：`set("spark.sql.shuffle.partitions", "4")`
> * 5）、设置执行 join 操作时能够广播给所有 worker 节点的最大字节大小
> 
>  `set("spark.sql.autoBroadcastJoinThreshold", "67108864")`
> 
> 
> 





![img](https://img-blog.csdnimg.cn/img_convert/fc910111f8be8233814f0320dcfa6bf4.png)
![img](https://img-blog.csdnimg.cn/img_convert/6c32bfe4541145cdb9c369d95a4d8cec.png)
![img](https://img-blog.csdnimg.cn/img_convert/de720bed812474a0d277a2ba720352bf.png)

**既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！**

**由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新**

**[需要这份系统化资料的朋友，可以戳这里获取](https://bbs.csdn.net/topics/618545628)**

目、大纲路线、讲解视频，并且后续会持续更新**

**[需要这份系统化资料的朋友，可以戳这里获取](https://bbs.csdn.net/topics/618545628)**