hive的架构
1.用户接口
2.thift server
3.元数据库
4.驱动层
hive的特点:
数据仓库,hql
计算引擎MR,支持换成spark和tez
hive调试开启本地模式
set hive.exec.mode.local.auto=true
数据导入
1.导入方式
load data [local] inpath '' into table tablename
从本地导入:
需要加local,相当于从本地复制一份到hdfs的hive目录下
从hdfs导入:
不需要加,相当于从原路径剪切到hive的目录下
2.insert 方式
1).insert into [table] tablename values();(不提倡,数据都是小文件)
2).单重数据插入(一次可以插入多条数据)
insert into [table] tablename select ... form ... where ...
3).多重数据插入
form tablename1
insert into table tablename11 select .. where ...
insert into table tablename22 select .. where ...
insert into table tablename33 select .. where ...
3.数据删除
内部表:元数据和原始数据一起删除
外部表:只删除元数据
内部表的原始数据是hive自己管理
外部表的原始数据是hdfs管理的
内部表和外部表的元数据都是自己管理的
4.表的创建
内部表创建的时候,不需要指定数据存储目录,一般都使用默认的
外部表创建的时候,需要指定原始数据的存放目录 ,一般都是