目录:
第一章 基础知识
2.1 安装预先配置好的虚拟机
2.2 安装详细步骤
2.2.1 装 Java
2.2.2 安装 Hadoop
2.2.3 本地模式、伪分布式模式和分布式模式
2.2.4 测试 Hadoop
2.2.5 安装 Hive
2.3 Hive 内部是什么
2.4 启动 Hive
2.5 配置 Hadoop 环境
2.5.1 本地模式配置
2.5.2 分布式模式和伪分布式模式配置
2.5.3 使用 JDBC 连接元数据
2.6 Hive 命令
2.7 命令行界面
2.7.1 CLI 选项
2.7.2 变量和属性
2.7.3 Hive 中“一次使用”命令
2.7.4 从文件中执行 Hive 查询
2.7.5 hiverc 文件
2.7.6 使用 Hive CLI 的更多介绍
2.7.7 查看操作命令历史
2.7.8 执行 shell 命令
2.7.9 在 Hive 内使用 Hadoop 的 dfs 命令
2.7.10 Hive 脚本中如何进行注释
2.7.11 显示字段名称
正文:
本章主要讲如何部署并使用 Hive。因为提供了现成的hive服务器,所以暂时跳过2.1-2.3的部分
2.3 Hive 内部是什么
Hive内部主要是 Java 代码。
在 lib 目录下可以发现有很多的 JAR 文件。
在 bin 目录下放了很多 Hive 服务的可执行文件,包括 hive 命令行界面(CLI)。CLI 是我们使用 Hive 最常用的方式。
在conf 目录下存放了配置 Hive 的配置文件。
所有的 Hive 客户端都需要一个 metastoreservice(元数据服务),Hive 使用这个服务来存储表模式信息和其他元数据信息。通常是需要一个关系型数据库的表来存储这些信息。
Hive 还系统了网页界面(HWI),提供了远程访问 Hive 的服务。
2.4 启动 Hive
通常使用$HIVE_HOME/bin/hive 命令来启动 CLI,当然也可以将这个命令存储到 PATH 中。
本章讲述了 hive 中如何建表、搜索、删表的操作,分别是:
1.建表:CREATE TABLE x (a INT);
2.搜索:SELECT * FROM x;
3.删表:DROP TABLE x;
最后讲到了如果不进行一定的配置的话,操作之后会在工作目录下会出现一个名为 metastore_db 的目录,当用户在不同目录下使用 CLI 的话,则无法共享之前的数据。因此需要一些配置来保证每次生成的 metastore_db 在一个地方,来保证数据的可持续性。
2.5 配置 Hadoop 环境
2.5.1 本地模式配置
2.5.2 分布式模式和伪分布式模式配置
2.5.3 使用 JDBC 连接元数据
2.6 Hive 命令
2.7 命令行界面
2.7.1 CLI 选项
2.7.2 变量和属性
2.7.3 Hive 中“一次使用”命令
2.7.4 从文件中执行 Hive 查询
2.7.5 hiverc 文件
2.7.6 使用 Hive CLI 的更多介绍
2.7.7 查看操作命令历史
2.7.8 执行 shell 命令
2.7.9 在 Hive 内使用 Hadoop 的 dfs 命令
2.7.10 Hive 脚本中如何进行注释
2.7.11 显示字段名称