什么是Hive?
Hive是建立在Hadoop上的,用来构建数据仓库的工具,里面有表的概念,可以使用SQL语句实现存储、查询和分析存储在 HDFS上的数据,这些SQL语句在Hive中称为HQL,语法和SQL语句基本一样。
由于数据是杂乱无章的,所以Hive需要一份关于这些数据的元数据来管理和操作这些数据。这份元数据包括:
元数据(
行的分隔符(在映射成表的时候知道在哪里分行显示)
字段分隔符(在映射成表的时候知道在哪里分列显示)
字段的类型
字段的名称
)
在Hive中,我们把数据存储在HDFS中,元数据默认存储在Hive自带的Derby数据库中,由于Derby不能实现并发访问,所以我们一般使用mysql进行替换。
Hive的原理
Hive 将用户的HQL 语句进行解析,优化,最终把一个个的HQL语句转换为MapReduce 作业提交到Hadoop 集群上,Hadoop进行作业的调度及监控,作业完成后将执行结果返回给用户。所以,Hive并不进行计算,只是把HQL解析为MapperReduce在HDFS集群中运行而已,所以Hive的效率并不高。
Hive表的类型
hive中有5种表:
1. 内部表
数据默认存储在/user/hive/warehouse,由hive自身管理,删除内部表会同时删除存储数据和元数据。
建表方式一:
create table t1(
id INT,
name STRING,
age INT,
gfs ARRAY<STRING>,
address MAP<STRING,STRING>,
info STRUCT<country:String,province:String,shi:String>
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ' '
COLLECTION ITEMS TERMINATED BY ','
MAP KEYS TERMINATED BY ':'
LINES TERMINATED BY '\n'
LOCATION "/test";//可以设置源数据的位置,若不设置默认就在Hive的工作目录区
建表方式二:
create table gfstbl1 like gfstbl;只是创建表结构
建表方式三:
create table gfstbl2 AS SELECT id,name,gfs,address from gfstbl;
会创建相应的表结构,并且插入数据,相当于完整的赋值
加载数据:
load data local inpath '/root/gfs.txt' into table gfstbl;
查看表描述信息:
DESCRIBE [EXTENDED|FORMATTED] table_name
EXTENDED极简的方式显示
FORMATTED格式化方式来显示
DESCRIBE EXTENDED gfstbl;默认就是EXTENDED
DESCRIBE FORMATTED gfstbl;
插入数据的其他方式:
插入数据的方式:
1、insert 新数