spark-sql配置并优化

配置好hive后,spark sql 配置就很简单了,实际上只要配置一个hive-site.xml文件,拷贝到spark/conf目录下。这个文件是给spark使用的,hive的配置文件用自己的配置文件。

一:配置文件

[hadoop@hadoop001 conf]$ vi hive-site.xml

<property>
<name>javax.jdo.option.ConnectionURL</name>
        <value>jdbc:mysql://localhost:3306/ruoze_d5?createDatabaseIfNotExist=true</value>
</property>

<property>
        <name>javax.jdo.option.ConnectionDriverName</name>
        <value>com.mysql.jdbc.Driver</value>
</property>

<property>
        <name>javax.jdo.option.ConnectionUserName</name>
        <value>root</value>
</property>

<property>
        <name>javax.jdo.option.ConnectionPassword</name>
        <value>123456</value>
</property>

二:优化重点

[hadoop@hadoop001 conf]$ vi spark-defaults.conf
spark.executor.extraClassPath /home/hadoop/lib/others/mysql-connector-java-5.1.27.jar
sdoop@hadoop001 conf]$ vi spark-defaults.conf
spark.driver.extraClassPath /home/hadoop/lib/others/mysql-connector-java-5.1.27.jar

这里有的税后需要配置2个客户端
为什么这么做,这是为以后方便,如果spark升级的话,可以节省很多事情
在这之前需要自己创建文件夹others
要把mysql-connector-java-5.1.27.jar传在这里

三:查看

[hadoop@hadoop001 spark-2.4.0-bin-2.6.0-cdh5.7.0]$ cd bin
[hadoop@hadoop001 bin]$ ./spark-sql
18/12/27 22:42:47 INFO ObjectStore: Initialized ObjectStore
18/12/27 22:42:48 INFO StateStoreCoordinatorRef: Registered StateStoreCoordinator endpoint
Spark master: local[2], Application Id: local-1545921767101
18/12/27 22:42:49 INFO SparkSQLCLIDriver: Spark master: local[2], Application Id: local-1545921767101
spark-sql (default)> 

四:效果

在这里插入图片描述

首先,需要了解一下为什么Spark SQL运行太慢。可能的原因有以下几个方面: 1. 数据量过大:如果数据量过大,会导致Spark SQL运行速度变慢。可以考虑对数据进行分片处理,将数据进行分区存储,提高查询效率。 2. 硬件配置不足:Spark SQL运行慢可能是因为硬件配置不足,可以考虑增加内存、CPU等硬件资源,提高计算能力,加快查询速度。 3. 数据倾斜:如果数据倾斜严重,会导致某些节点负载过重,影响整体查询速度。可以通过数据预处理,进行数据倾斜处理,提高查询效率。 4. 网络延迟:如果网络延迟过大,会导致Spark SQL查询时间变长。可以考虑将计算资源与数据存储资源放置在同一个集群中,减少网络传输时间。 针对以上问题,可以采取一些优化措施来提高Spark SQL的运行速度: 1. 使用合适的数据结构和索引:合理选择数据结构和索引,可以提高查询效率。例如,可以使用Parquet等列式存储格式,以及创建适当的索引,以减少数据扫描的时间。 2. 使用合适的算法和操作:根据查询需求,选择合适的算法和操作,能够提高Spark SQL的运行速度。例如,合理使用join操作,避免使用过多的shuffle操作等。 3. 数据分区和数据倾斜处理:将数据进行分区存储,可以提高查询效率。同时,对于数据倾斜的情况,可以使用一些技术,如随机数解决方案、分桶等,来进行数据倾斜处理。 4. 调整资源配置:根据具体情况,调整Spark集群的资源配置,包括executor内存、executor核数等参数,以获得更好的性能。 综上所述,针对Spark SQL运行慢的问题,可以从数据量、硬件配置、数据倾斜、网络延迟等方面入手,采取相应的优化措施,以提高Spark SQL的运行速度。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值