因为老早之前配置hive的时候没有把hive的底层计算引擎改为spark,现在对hive的表进行查询的时候很慢,就想把MR换掉,于是这篇文章就诞生了,
首先做准备工作,你需要把hive的hive-site.xml拷贝到你的集群的spark目录下还要在你的win上创建一个resources
把这个文件拷贝之后
接着就是你吧mysql的jar拷贝到你工程的存放jar的目录下,然后拷贝到spark/jar下面如果没有点击下载mysql的jar包
然后就是咱们的程序如下
package csvToHive
import org.apache.spark.SparkConf
import org.apache.spark.sql. SparkSession
import scala.io.Source
object createHiveTable {
def main(args: Array[String]): Unit = {
//设置配置文件等
val conf = new SparkConf()
.setAppName(s"${this.getClass.getSimpleName}")
.setMaster("spark://master:7077") //如果是打jar包的时候这句话需要注释掉的
//设置hive连接,既能连接hive也能读取文件
val hive = SparkSession
.builder()
.enableHiveSuppo