表,并提供类SQL的查询功能。
HQL(hive query language)
hive
用HQL作为查询语句,
存储在HDFS上,
使用mapreduce作为计算工具,
支持UDF
支持自定义存储格式
适合做大量的离线数据处理
hive的用户接口:CLT 用户接口,最常用
JDBC/ODBC
WEBUI
元数据:metadata,包括表名,表所属的数据库,表的拥有者、列/分区字段、表的类型(是否是外部表)、
表的数据所在目录等;
metadata默认存储在derby数据库中
derby数据库是hive自带的数据库
使用derby数据库来存储元数据,它不能支持多用户并发访问hive
使用mysql数据库来替代默认的derby数据库,可以支持多用户访问。
使用场景
--hive的本质是hadoop mr;
--适用用离线的数据处理
hql查询接口
hdfs存储文件
使用mr处理数据
体现结构
类型:数据库,表,视图,索引,函数
格式:文本(textfile),序列file RCfile
可解析的数据
功能模块
1、基础模块:hdfs,mr
2、hql解析:解析查询语句
3、优化处理:优化hql语句
4、生成执行计划
5、执行
6、驱动
7、客户端:cli(命令行;jdbc)
8、元数据(mate store)