<Zhuuu_ZZ>HIVE(一)知识点1000+

一.Hive的优势和特点

  • 提供了一个简单的优化模型
  • HQL类SQL语法,简化MR开发
  • 支持在不同的计算框架上运行
  • 支持在HDFS和HBase上临时查询数据
  • 支持用户自定义函数、格式
  • 成熟的JDBC和ODBC驱动程序,用于ETL和BI
  • 稳定可靠(真实生产环境)的批处理
  • 有庞大活跃的社区

二.Hive体系架构

在这里插入图片描述

三.Hive Interface -命令窗口模式

  • 有两种工具:Beeline和Hive命令行(CLI)
  • 有两种模式:命令行模式和交互模式
  • 命令行模式
    在这里插入图片描述
  • 交互模式
    在这里插入图片描述
  • hiveserver和beeline(hiveserver2)的区别:
    • hive不需要启动服务再访问(即它的客户端和服务端都在hive这个命令,只需要输入hive就可以正常进入hive命令端了
    • beeline需要先启动服务端,再访问客户端
    • beeline在查询效率上比hive高
    • beeline不支持update和delete,hive都支持

四.启动beeline(hiveserver2)

第一步

  • 先输入hiveserver2启动服务
    在这里插入图片描述

第二步

  • 新开一个窗口,然后输入 beeline -u "jdbc:hive2://localhost:10000"
    在这里插入图片描述

五.Hive数据类型

  • 原始数据-类似于SQL数据类型
  • 加黑部分为推荐使用
    在这里插入图片描述
  • 复杂数据类型
    • ARRAY:存储的数据为相同类型
    • MAP:具有相同类型的键值对
    • STRUCT:封装了一组字段
      在这里插入图片描述

六.Hive元数据结构

在这里插入图片描述

1.Database

  • 表的集合,HDFS中表现为一个文件夹
    • 默认在/opt/hive/warehouse/属性目录下
  • 如果没有指定数据库,默认使用default数据库
create database if not exists myhivebook;
use myhivebook;
show databases;
describe database default; --more details than ’show’, such as location
alter database myhivebook set owner user dayongd;
drop database if exists myhivebook cascade;
  • 面试题:如何知道和显示当前所在数据库?
    • select current_database();

2.Tables

  • 分为内部表和外部表
  • 内部表(管理表)
    • HDFS中为所属数据库目录下的子文件夹
    • 数据完全由Hive管理,删除表(元数据)会删除数据
  • 外部表(External Tables)
    • 数据保存在指定位置的HDFS路径中
    • Hive不完全管理数据,删除表(元数据)不会删除数据

七.Hive表&数据操作

链接: Hive表&数据操作.

八.modify和change

  • modify修改字段类型
    alter table 表名 modify 原字段名 新属性
  • change 修改字段类型和属性
    ALTER TABLE 数据库名.表名 CHANGE COLUMN 字段名 新的字段名(如果不变就保持原字段) 字段类型(若不变就采用原来的字段类型) COMMENT '新的字段备注';
  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值