Hive是什么:
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类SQL查询功能;其本质是将HQL转化成MapReduce程序。
构建在Hadoop之上的数据仓库:
- 使用HQL作为查询接口
- 使用HDFS存储
- 使用MapReduce计算
灵活性和扩展性比较好:支持UDF,自定义存储格式等:
适合离线数据处理
Hive体系结构:
Hive的数据存储基于HDFS,其没有专门的数据存储格式,主要的存储结构主要包括:数据库,文件,表,视图,索引。Hive默认可以直接加载文本文件(TextFile),还支持SequenceFile,RCFile。创建表时指定Hive数据的列分隔符与行分隔符即可解析数据。
- 用户接口:Client:
- CLI(hive shell)、JDBC/O