sparksql连接hive中出现的错误

最新推荐文章于 2024-10-17 19:53:29 发布

会写bug的要饭的

最新推荐文章于 2024-10-17 19:53:29 发布

阅读量798

点赞数

本文链接：https://blog.csdn.net/qq_43704511/article/details/88260355

版权

在使用SparkSQL连接Hive时遇到错误，原因是MySQL的jar包不兼容。解决方法是将Hive中的mysql.jar复制到Spark的jars目录下。然后通过SparkConf配置并创建SparkSession，建立Hive支持，创建并加载Hive表，处理数据，并将结果保存到新的Hive表中。最后，将项目打包，并通过Spark-submit命令提交到集群运行。

摘要由CSDN通过智能技术生成

在这里插入图片描述

解决方案：mysql的jar包不匹配，所以从hive中cp mysql.jar 进到spark的jars中
package com.cmd.spark

import org.apache.spark.SparkConf
import org.apache.spark.sql.{DataFrame, SparkSession}

object Spark5 {
def main(args: Array[String]): Unit = {
//配置文件对象
val conf = new SparkConf().setAppName(“spark_hive”)
//2.得到对象HiveCOntext对象
val hiveContext = SparkSession.builder().config(conf).enableHiveSupport().getOrCreate()
// //3.创建hive表
val createSql = “create table if not exists t_student(id int,name String) row format delimited fields terminated by ‘,’”
hiveContext.sql(createSql)
//4.加载数据
val loadData = “load data local inpath ‘/student.log’ into table t_student”
hiveContext.sql(loadData)
//5.获取hive中的数据.放入SparkSql中DataFrame
val df:DataFrame = hiveContext.sql(“select * from t_student”)
//6.处理求出
val resultd2 = df.where(“id>2”)
//7.Dataframe的DLF风格。
resultd2.createOrReplaceTempView(“result01”)
hiveContext.sql(“create table if not exists tmp_student as select * from result01”)

}
}
打包

配置环境。把hive的配置文件赋值到spark配置文件中。

cp hive-site.xml

/usr/spark/spark-2.1.1-bin-hadoop2.7/conf/

hive.metastore.schema.verification false

提交到集群：

Spark-submit --master [local/spark/yarn] --class /jar包

会写bug的要饭的

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫