Hive入门

一、Hive的数据类型
  1. 基本数据类型
    1. 整数型:tinyint/smallint/int/bigint
    2. 浮点型:float/double
    3. 布尔类型:boolean
    4. 字符串类型:string
  2. 复杂数据类型
    1. Array
    2. Map
    3. Struct
  1. 时间类型
    1. Date:年月日
    2. Timestamp
二、Hive的数据模型
  1. 内部表
    1. 与数据库中table在概念上是类似的
    2. 每个table在Hive中都有一个相应的目录存储数据
    3. 所有table数据(不包括External Table)都保存在这个目录中
    4. 删除表时,元数据与数据都会被删除
  2. 分区表
    1. Partition对应于数据库中的Partition列的密集索引
    2. 在Hive中,表的一个Partition对应于表的一个目录,所有的Partition的数据都存储在对应的目录中
  • 创建分区表:
create table partition_table
(id int,name string)
partitioned by (gender string)
row format delimited fields terminated by ',';
  1. 外部表(External Table)
    1. 指向已经在HDFS中存在的数据,可以创建Partition
    2. 它和内部表在元数据的组织上是相同的,而实际数据存储则有较大差异
    3. 外部表只有一个过程,加载数据和创建表同时完成,并不会移动到数据仓库目录中,只是与外部数据建立一个链接。当删除外部表时,仅删除该链接。
  •  创建外部表
create external table external_student
(id int, name string, age int)
location '/input/student';
  1. 桶表(Bucket Table)
    1. 桶表是对数据进行哈希取值,然后放到不同的文件中存储。
  • 创建桶表
create table bucket_table
(id int,name string,age int)
clustered by (name) into 5 buckets;
  1. 视图(View)
    1. 视图是一种虚表,是一个逻辑概念;可以跨越多张表
    2. 视图建立在已有表的基础上,视图赖以建立的这些表称为基表
    3. 视图可以简化复杂的查询
  • 创建视图
create view view_test
as
select p.phone,g.gender
from yxyx_user p,partition_table g
where p.user_id = g.id;

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值