Spark SQL 读写 Hive Table 部署指南（Spark 3.1.2 + Hive 3.1.2）

云梦优选

于 2025-02-02 08:50:04 发布

阅读量876

点赞数 25

文章标签： spark sql hive

本文链接：https://blog.csdn.net/FXH1989/article/details/145417580

版权

Spark SQL 读写 Hive Table 部署指南（Spark 3.1.2 + Hive 3.1.2）

一、环境要求

组件版本：
- Spark: 3.1.2
- Hive: 3.1.2
- Hadoop: 3.2.2（需与Hive和Spark兼容）
- Java: JDK 8 或 11（需与Hadoop版本匹配）
节点要求：
- Hive Metastore：部署于独立节点（或共享节点）。
- Spark Workers：所有节点需安装Hive客户端及依赖库。

二、部署步骤详解

1. Hive 环境部署

安装Hive 3.1.2：

# 在所有Spark Worker节点安装Hive
wget https://downloads.apache.org/hive/hive-3.1.2/apache-hive-3.1.2-bin.tar.gz
tar -xzvf apache-hive-3.1.2-bin.tar.gz -C /opt/
ln -s /opt/apache-hive-3.1.2-bin /opt/hive

配置Hive Metastore：

修改 hive-site.xml，指定MySQL/PostgreSQL作为元数据库：

<configuration>
  <property>
    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:mysql://metastore-host:3306/hive_metastore?createDatabaseIfNotExist=true</value>
  </property>
  <property>
    <name>javax.jdo.option.ConnectionDriverName</name>
    <value>com.mysql.cj.jdbc.Driver</value>
  </property>
  <property>
    <name>hive.metastore.uris</name>
    <value>thrift://metastore-host:9083</value>
  </property>
</configuration>

2. Spark 环境配置

设置 spark-env.sh：

# 添加Hadoop和Hive依赖路径
export HADOOP_CONF_DIR=/etc/hadoop/conf
export SPARK_DIST_CLASSPATH=$(hadoop classpath):$(hive --classpath)

编译Spark 3.1.2：

# 下载Spark源码并编译（需Maven 3.6+）
./dev/make-distribution.sh \
  --name custom-spark \
  --tgz \
  -Phadoop-3.2 \
  -Phive \
  -Phive-thriftserver \
  -Pyarn \
  -Pkubernetes

关键参数说明：
- -Phadoop-3.2: 匹配Hadoop 3.2.2版本。
- -Phive: 启用Hive支持。
- -Phive-thriftserver: 集成Hive Thrift Server。

3. 部署 Spark on YARN

配置 spark-defaults.conf：

spark.master            yarn
spark.eventLog.enabled  true
spark.eventLog.dir      hdfs:///spark-logs
spark.sql.catalogImplementation hive
spark.sql.hive.metastore.version 3.1.2
spark.sql.hive.metastore.jars /opt/hive/lib/*

复制Hive配置文件：

# 将Hive的hive-site.xml复制到Spark配置目录
cp /opt/hive/conf/hive-site.xml $SPARK_HOME/conf/

三、验证读写功能

1. 启动Spark Shell测试

./bin/spark-shell --master yarn

读写Hive表示例：

// 创建Hive表
spark.sql("CREATE TABLE test_table (id INT, name STRING) USING hive")

// 写入数据
spark.sql("INSERT INTO test_table VALUES (1, 'Alice'), (2, 'Bob')")

// 读取数据
spark.sql("SELECT * FROM test_table").show()

2. 验证Hive Metastore连接

检查元数据同步：

# 在Hive客户端查询表是否存在
hive -e "SHOW TABLES"

四、常见问题与解决

问题	解决方案
ClassNotFoundException	检查 `spark.sql.hive.metastore.jars` 路径是否正确，确保包含所有Hive 3.1.2依赖JAR。
Hive Metastore连接失败	确认 `hive-site.xml` 中 `hive.metastore.uris` 指向正确的Metastore服务地址。
权限不足	配置HDFS目录权限：`hdfs dfs -chmod -R 777 /user/hive/warehouse`。
版本不兼容	使用 `mvn dependency:tree` 检查依赖冲突，排除冲突的JAR包。

五、注意事项

版本一致性：
- Hive、Spark、Hadoop的JAR包版本必须严格匹配（如Hive 3.1.2需使用Hadoop 3.x）。
- 避免混用不同Hive版本的依赖库（如 hive-exec-*.jar）。
资源配置优化：
- 调整YARN资源队列分配，避免Spark任务与Hive Metastore竞争资源。
- 启用动态资源分配：spark.dynamicAllocation.enabled=true。
安全加固：
- 启用Kerberos认证时，配置 spark.yarn.principal 和 spark.yarn.keytab。
- 使用Ranger或Sentry管理Hive表权限。