hive设置文件存储位置-CSDN博客

我整理的一些关于【HA】的项目学习资料（附讲解～～）和大家一起分享、学习一下：

https://d.51cto.com/xltfov

Hive 文件存储位置设置指南

在大数据生态系统中，Apache Hive 是一个非常重要的工具，它提供了数据仓库的功能，用于查询和分析存储在 Hadoop 分布式文件系统 (HDFS) 中的数据。对于刚入行的小白来说，了解如何设置 Hive 的文件存储位置是非常重要的。本文将为你详细解析这个过程，并提供相应的代码示例及其解释。

设置步骤概览

在开始之前，我们需要明确整个流程。以下是我们需要遵循的步骤：

步骤	说明
1	安装 Hadoop 和 Hive
2	启动 Hadoop
3	修改 Hive 配置文件
4	验证设置
5	创建并测试表

一步一步实现

1. 安装 Hadoop 和 Hive

首先，你需要在你的机器上安装 Hadoop 和 Hive。你可以通过以下命令来下载和安装。

# 更新系统
sudo apt-get update

# 安装 Java（Hadoop 的依赖）
sudo apt-get install openjdk-8-jdk

# 下载 Hadoop
wget 
tar -xzvf hadoop-3.3.1.tar.gz
mv hadoop-3.3.1 /usr/local/hadoop

# 下载 Hive
wget 
tar -xzvf apache-hive-3.1.2-bin.tar.gz
mv apache-hive-3.1.2-bin /usr/local/hive

2. 启动 Hadoop

确保 Hadoop 正常运行：

# 配置环境变量
echo 'export HADOOP_HOME=/usr/local/hadoop' >> ~/.bashrc
echo 'export PATH=$PATH:$HADOOP_HOME/bin' >> ~/.bashrc
source ~/.bashrc

# 启动 Hadoop
$HADOOP_HOME/sbin/start-dfs.sh

3. 修改 Hive 配置文件

在 Hive 中，我们通常需要修改 hive-site.xml 文件来设置文件存储位置。首先，你需要找到这个文件并进行编辑。

# 进入 hive 配置目录
cd /usr/local/hive/conf

# 复制原始配置文件
cp hive-default.xml.template hive-site.xml

# 编辑配置文件
nano hive-site.xml

在 hive-site.xml 中添加以下配置：

<configuration>
    <property>
        <name>hive.metastore.warehouse.dir</name>
        <value>hdfs://localhost:9000/user/hive/warehouse</value>
        <description>Location of default database for the metastore</description>
    </property>
</configuration>

解释：

hive.metastore.warehouse.dir：这是 Hive 默认数据库的存储位置。
hdfs://localhost:9000/user/hive/warehouse：这表示数据将存储在 Hadoop 文件系统的指定路径。

4. 验证设置

我们需要验证 Hive 是否能够读取并写入新的存储位置。启动 Hive CLI，并检查当前设置。

# 设置环境变量
echo 'export HIVE_HOME=/usr/local/hive' >> ~/.bashrc
echo 'export PATH=$PATH:$HIVE_HOME/bin' >> ~/.bashrc
source ~/.bashrc

# 启动 Hive CLI
hive

在 Hive CLI 中，可以使用以下命令查看当前存储目录：

5. 创建并测试表

最后，创建一个简单的表来测试确认我们的设置生效。

-- 创建一个名为 test_table 的表
CREATE TABLE IF NOT EXISTS test_table (
    id INT,
    name STRING
) 
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY ',' 
STORED AS TEXTFILE;

-- 显示表
SHOW TABLES;