hadoop学习之-hive-数据模型

最新推荐文章于 2024-07-03 18:54:40 发布

南山行者

最新推荐文章于 2024-07-03 18:54:40 发布

阅读量2k

点赞数

分类专栏：大数据

大数据专栏收录该内容

8 篇文章 0 订阅

订阅专栏

1.Database：相当于关系数据库里的命名空间（namespace），它的作用是将用户和数据库的应用隔离到不同的数据库或模式中，该模型在hive 0.6.0之后的版本支持，hive提供了create database dbname、use dbname以及drop database dbname这样的语句。

2.表（table）：hive的表逻辑上由存储的数据和描述表格中的数据形式的相关元数据组成。表存储的数据存放在分布式文件系统里，例如HDFS，元数据存储在关系数据库里，当我们创建一张hive的表，还没有为表加载数据的时候，该表在分布式文件系统，例如hdfs上就是一个文件夹（文件目录）。
Hive里的表友两种类型一种叫内部表，这种表的数据文件存储在hive的数据仓库里，内部表做删除表，就删除了目录及数据。
一种叫外部表，这种表的数据文件可以存放在hive数据仓库外部的分布式文件系统上，也可以放到hive数据仓库里（注意：hive的数据仓库也就是hdfs上的一个目录，这个目录是hive数据文件存储的默认路径，它可以在hive的配置文件里进行配置，最终也会存放到元数据库里）。外部表做删除表，只是删除了元数据的信息，并不会删除HDFS上的数据。

下面是创建内部表的实例语句：

 
         Create 
          table 
         tuoguan_tbl (flied string); 
        
         Load 
          data  
         local 
         inpath ‘home/hadoop/test.txt’ 
         into 
         table 
         tuoguan_tbl;

外部表创建的实例：

 
         Create 
          external  
         table 
         external_tbl (flied string) 
        
         Location  ‘/home/hadoop/external_table’; 
        
         Load 
          data  
         local 
         inpath ‘home/hadoop/test.txt’ 
         into 
         table 
         external_tbl;

　　大家看到了创建外部表时候table之前要加关键字external，同时还要用location命令指定文件存储的路径，如果不使用locaction数据文件也会放置到hive的数据仓库里。

　　这两种表在使用的区别主drop命令上，drop是hive删除表的命令，托管表执行drop命令的时候，会删除元数据和存储的数据，而外部表执行drop命令时候只删除元数据库里的数据，而不会删除存储的数据。另外我还要谈谈表的load命令，hive加载数据时候不会对元数据进行任何检查，只是简单的移动文件的位置，如果源文件格式不正确，也只有在做查询操作时候才能发现，那个时候错误格式的字段会以NULL来显示。

3.分区（partition）：hive里分区的概念是根据“分区列”的值对表的数据进行粗略划分的机制，在hive存储上就体现在表的主目录（hive的表实际显示就是一个文件夹）下的一个子目录，这个文件夹的名字就是我们定义的分区列的名字，没有实际操作经验的人可能会认为分区列是表的某个字段，其实不是这样，分区列不是表里的某个字段，而是独立的列，我们根据这个列存储表的里的数据文件。使用分区是为了加快数据分区的查询速度而设计的，我们在查询某个具体分区列里的数据时候没必要进行全表扫描。下面我就举一个分区使用的实例：

创建分区：

 
         Create 
          table 
         logs(ts  
         bigint 
         ,line string) 
        
         Partitioned  
         by 
         (dt string,country string);

加载数据：

 
         Local 
          data  
         local 
         inpath ‘/home/hadoop/par/file01.txt’ 
         into 
         table 
         logs partition (dt=’2012-06-02’,country=’cn’);

在hive数据仓库里实际存储的路径如下所示：

 
         / 
         user 
         /hive/warehouse/logs/dt=2013-06-02/country=cn/file1.txt 
        
         / 
         user 
         /hive/warehouse/logs/dt=2013-06-02/country=cn/file2.txt 
        
         / 
         user 
         /hive/warehouse/logs/dt=2013-06-02/country=us/file3.txt 
        
         / 
         user 
         /hive/warehouse/logs/dt=2013-06-02/country=us/file4.txt

我们看到在表logs的目录下有了两层子目录dt=2013-06-02和country=cn

查询操作：

 
         Select 
          ts,dt,line   
         from 
          logs  
         where 
         country=’cn’,

这个时候我们的查询操作只会扫描file1.txt和file2.txt文件。

4.桶（bucket）：上面的table和partition都是目录级别的拆分数据，bucket则是对数据源数据文件本身来拆分数据。使用桶的表会将源数据文件按一定规律拆分成多个文件，要使用bucket，我们首先要打开hive对桶的控制，命令如下：

 
         set 
          hive.enforce.bucketing =  
         true

下面这段文字是我引用博客园里风生水起的博文：

 
         示例： 
        
         建临时表student_tmp，并导入数据： 
        
         hive>  
         desc 
         student_tmp;         
        
         OK 
        
         id       
         int 
        
         age      
         int 
        
         name    
          string 
        
         stat_date       string 
        
         Time 
          taken: 0.106 seconds 
        
         hive>  
         select 
         * 
         from 
         student_tmp; 
        
         OK 
        
         1       20      zxm     20120801 
        
         2       21      ljz     20120801 
        
         3       19      cds     20120801 
        
         4       18      mac     20120801 
        
         5       22      android 20120801 
        
         6       23      symbian 20120801 
        
         7       25      wp      20120801 
        
         Time 
          taken: 0.123 seconds 
        
         建student表： 
        
         hive> 
         create 
         table 
         student(id  
         INT 
         , age 
         INT 
         , 
         name 
         STRING) 
        
         >partitioned 
         by 
         (stat_date STRING) 
        
         >clustered 
         by 
         (id) sorted 
         by 
         (age)  
         into 
         2 bucket 
        
         >row format delimited fields terminated 
         by 
         ',' 
         ; 
        
         设置环境变量： 
        
         > 
         set 
         hive.enforce.bucketing = 
         true 
         ; 
        
         插入数据： 
        
         > 
         from 
         student_tmp 
        
         > 
         insert 
         overwrite 
         table 
         student partition(stat_date= 
         "20120802" 
         ) 
        
         > 
         select 
         id,age, 
         name 
         where 
         stat_date= 
         "20120801" 
         sort 
         by 
         age; 
        
         查看文件目录： 
        
         $ hadoop fs -ls / 
         user 
         /hive/warehouse/studentstat_date=20120802/ 
        
         Found 2 items 
        
         -rw-r 
         --r--   1 work supergroup         31 2012-07-31 19:52 /user/hive/warehouse/student/stat_date=20120802/000000_0 
        
         -rw-r 
         --r--   1 work supergroup         39 2012-07-31 19:52 /user/hive/warehouse/student/stat_date=20120802/000001_0

　　物理上，每个桶就是表（或分区）目录里的一个文件，桶文件是按指定字段值进行hash，然后除以桶的个数例如上面例子2，最后去结果余数，因为整数的hash值就是整数本身，上面例子里，字段hash后的值还是字段本身，所以2的余数只有两个0和1，所以我们看到产生文件的后缀是*0_0和*1_0,文件里存储对应计算出来的元数据。

　　Hive的桶，我个人认为没有特别的场景或者是特别的查询，我们可以没有必要使用，也就是不用开启hive的桶的配置。因为桶运用的场景有限，一个是做map连接的运算，我在后面的文章里会讲到，一个就是取样操作了，下面还是引用风生水起博文里的例子：

 
  查看sampling数据： 
 
  hive>  
  select 
  * 
  from 
  student tablesample(bucket 1 
  out 
  of 
  2  
  on 
  id);                                                                               
 
  Total MapReduce jobs = 1 
 
  Launching Job 1  
  out 
  of 
   1 
 
  ....... 
 
  OK 
 
  4       18      mac     20120802 
 
  2       21      ljz     20120802 
 
  6       23      symbian 20120802 
 
  Time 
   taken: 20.608 seconds 
 
  tablesample是抽样语句，语法：TABLESAMPLE(BUCKET x 
  OUT 
  OF 
  y) 
 
  y必须是 
  table 
  总bucket数的倍数或者因子。hive根据y的大小，决定抽样的比例。例如， 
  table 
  总共分了64份，当y=32时，抽取 (64/32=)2个bucket的数据，当y=128时，抽取(64/128=)1/2个bucket的数据。x表示从哪个bucket开始抽取。例 如， 
  table 
  总bucket数为32，tablesample(bucket 3 
  out 
  of 
  16)，表示总共抽取（32/16=）2个bucket的数据，分别为第3个bucket和第（3+16=）19个bucket的数据。