spark-sql调优

最新推荐文章于 2024-07-01 19:21:57 发布

柱子z

最新推荐文章于 2024-07-01 19:21:57 发布

阅读量521

点赞数

分类专栏： spark-sql 文章标签：大数据 hadoop spark

本文链接：https://blog.csdn.net/weixin_40035337/article/details/108076089

版权

本文深入探讨了SparkSQL的前世今生，从Shark到SparkSQL的转变。讲解了如何使用SparkSQL操作CSV文件和Hive，以及参数调优策略，如数据缓存、分区控制和广播变量。通过案例分析，解决了广播变量超时和小文件问题，提供了解决这些问题的方案和参数调整建议。

摘要由CSDN通过智能技术生成

sparkSQL概述

sparkSQL的前世今生

Shark是专门针对于spark的构建大规模数据仓库系统的一个框架
Shark与Hive兼容、同时也依赖于Spark版本
Hivesql底层把sql解析成了mapreduce程序，Shark是把sql语句解析成了Spark任务
随着性能优化的上限，以及集成SQL的一些复杂的分析功能，发现Hive的MapReduce思想限制了Shark的发展。
最后Databricks公司终止对Shark的开发
- 决定单独开发一个框架，不在依赖hive，把重点转移到了sparksql这个框架上。

什么是sparkSQL

SparkSQL是apache Spark用来处理结构化数据的一个模块

sparkSQL读取sql数据

spark sql可以通过 JDBC 从关系型数据库中读取数据的方式创建DataFrame，通过对DataFrame一系列的计算后，还可以将数据再写回关系型数据库中

添加mysql连接驱动jar包


<dependency>
	<groupId>mysql</groupId>
	<artifactId>mysql-connector-java</artifactId>
	<version>5.1.38</version>
</dependency>

代码开发


import java.util.Properties
import org.apache.spark.SparkConf
import org.apache.spark.sql.{
   DataFrame, SparkSession}

//todo:利用sparksql加载mysql表中的数据
object DataFromMysql {
   

  def main(args: Array[String]): Unit = {
   
    //1、创建SparkConf对象
    val sparkConf: SparkConf = new SparkConf().setAppName("DataFromMysql").setMaster("local[2]")

    //2、创建SparkSession对象
    val spark: SparkSession = SparkSession.builder().config(sparkConf).getOrCreate()

    //3、读取mysql表的数据
    //3.1 指定mysql连接地址
    val url="jdbc:mysql://localhost:3306/mydb?characterEncoding=UTF-8"
    //3.2 指定要加载的表名
    val tableName="jobdetail"
    // 3.3 配置连接数据库的相关属性
    val properties = new Properties()

    //用户名
    properties.setProperty("user","root")
    //密码
    properties.setProperty("password","123456")

    val mysqlDF: DataFrame = spark.read.jdbc(url,tableName,properties)

    //打印schema信息
    mysqlDF.printSchema()

    //展示数据
    mysqlDF.show()

    //把dataFrame注册成表
    mysqlDF.createTempView("job_detail")

    spark.sql("select * from job_detail where city = '广东' ").show()

    spark.stop(<