#hive中的表分为内部表和外部表
内部表(管理表)
HDFS中为所属数据库目录下的子文件夹
数据完全由Hive管理,删除表(元数据)会删除数据
外部表(External Tables)
数据保存在指定位置的HDFS路径中
Hive不完全管理数据,删除表(元数据)不会删除数据
创建外部表
内部表基本上与mysql中的操作相同,只要你会sql语句,hive的内部表就没有什么问题。
主要是外部表:
外部表可以帮助我们把一些txt或者日志文件进行数据化处理。
1、使用hive之前首先要把hadoop,mysql和zookeeper打开,然后再把hive打开,可以使用以下几个命令:
(mysql进入之后再推出一下,服务就开启了)
start-all.sh
zkServer.sh start
nohup hive --service metastore &
也就是jps命令后在linux系统中可以看到:
2,输入命令:hive
然后在hive命令中在HDFS上建一个文件夹来放需要处理的文件:
!hdfs dfs -mkdir /emp;
然后把文件上传到hdfs上:
!hdfs dfs -put /opt/employee.txt /emp;
然后开始创建外部表
首先我们要来看一下我们要处理的内容是什么样的:
可以看到每一行内容都被用"|"分成了5个部分
所以在hive中的建表语句应该这么写:
create external table employee(
co1 string,
co2 string,
co3 string,
co4 string,
co5 string
)
row format delimited fields terminated by ‘|’
location ‘/emp’;
然后就可以使用sql语句查询刚刚建的employee表: