sparksql读取mysql内存_Spark 2.x管理与开发-Spark SQL-性能优化（一）在内存中缓存数据（最常用最有效）...-CSDN博客

本文链接：https://blog.csdn.net/weixin_39805906/article/details/113219972

本文介绍了如何使用Spark SQL进行性能优化，通过将数据从MySQL读取并缓存在内存中，显著提高查询速度。详细步骤包括从Oracle数据库读取数据，注册DataFrame为表，缓存表，以及清理缓存的过程。

摘要由CSDN通过智能技术生成

Spark 2.x管理与开发-Spark SQL-性能优化(一)在内存中缓存数据(最常用最有效)

性能调优主要是将数据放入内存中操作。

通过spark.cacheTable("tableName")或者dataFrame.cache()。使用spark.uncacheTable("tableName")来从内存中去除table。

Demo案例：

1.从Oracle数据库中读取数据，生成DataFrame

val oracleDF = spark.read.format("jdbc")

.option("url","jdbc:oracle:thin:@192.168.88.101:1521/orcl.example.com")

.option("dbtable","scott.emp")

.option("user","scott")

.option("password","tiger").load

2.将DataFrame注册成表：

oracleDF.registerTempTable("emp")

3.执行查询，并通过Web Console监控执行的时间

spark.sql("select * from emp").show

4.将表进行缓存，并查询两次，并通过Web Console监控执行的时间

spark.sqlContext.cacheTable("emp")

5.清空缓存：

spark.sqlContext.cacheTable("emp")

spark.sqlContext.clearCache

**********自己操作*********

1)概述：

与RDD相似，

在内存中缓存表的数据

把数据缓存到内存中，可以通过直接读取内存中的值来提高性能。

SparkSession.sqlContext.cacheTable(“要缓存的表名”)

----------------------------------------------------------

2)开始操作：

注意：

因为当前操作是要Spark读取MySQL中的数据，所以在启动Spark之前要将之前连接Hive时用的和Hive相关的配置文件都移走(我这里就将这些文件移动到了tmp_files下的spark-hiveHA-hadoopHA目录下了)

(1)启动

接下来启动Spark

启动Spark-shell：

[root@bigdata111 bin]# ./spark-shell --master spark://bigdata111:7077 --jars /usr/local/mysql-connector-java-8.0.11.jar --driver-class-path /usr/local/mysql-connector-java-8.0.11.jar

(2)读取MySQL数据

scala> val mysqlDF=spark.read.format("jdbc").option("url","jdbc:mysql://192.168.212.1:3306/xinrong?serverTimezone=UTC&characterEncoding=utf-8&useSSL=false&allowPublicKeyRetrieval=true").option("user","root").option("password","123456").option("dbtable","student").option("driver","com.mysql.jdbc.Driver").load

(3)建临时的表

scala> mysqlDF.registerTempTable("student")

warning: there was one deprecation warning; re-run with -deprecation for details

这和视图的创建类似，只是视图里没有数据，而表中有数据

(4)开始查询

scala> spark.sql("select * from student").show