使用scala语言通过IDEA使SparkSQL与Hive建立连接时产生的一些问题和解决方法。

最新推荐文章于 2023-03-08 17:54:06 发布

EbenezerZhao

最新推荐文章于 2023-03-08 17:54:06 发布

阅读量532

点赞数

文章标签： hive mysql spark hadoop 大数据

本文链接：https://blog.csdn.net/EbenezerZhao/article/details/107383055

版权

本文介绍了在使用Scala通过IntelliJ IDEA运行SparkSQL连接Hive时可能遇到的错误，包括配置core-site.xml、hdfs-site.xml和hive-site.xml到resources目录以指定Hive数据位置，解决权限问题以及添加mysql驱动来解决缺失驱动的问题。

摘要由CSDN通过智能技术生成

基础代码：

import java.io.File
import org.apache.spark.sql.Row
import org.apache.spark.sql.SparkSession

case class Record(key: Int, value: String)
val warehouseLocation = new File("spark-warehouse").getAbsolutePath

val spark = SparkSession
.builder()
.appName("Spark Hive Example")
//.config("spark.sql.warehouse.dir", warehouseLocation)
.master("local[1]")
.enableHiveSupport()
.getOrCreate()

import spark.implicits._
import spark.sql

sql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING)")
sql("LOAD DATA LOCAL INPATH 'examples/src/main/resources/kv1.txt' INTO TABLE src")
sql("SELECT * FROM src").show()
sql("SELECT COUNT(*) FROM src").show()

上面所写的就是基本的代码，但是直接在IDEA上运行会产生一些错误。所以需要一些修改。
要让其能够运行，我们需要将core-site.xml,hdfs-site.xml和hive-site.xml导入到IDEA中的resources中。这样可以指定hive的数据存放在哪，以防IDEA到计算机的本地路径下去拿数据。
这时候有可能会出现有关于用户名的问题