概述
上一篇讲了一些概念性的东西.
本章也会是概念性的东西.
Hive
Hive是 Hadoop数据仓库的工具. 可以将结构化的数据,映射为一张数据表.
并提供 SQL
查询功能
本质
是将 SQL
转为 MapReduce
任务的工具.
是一个 MR Client
结构化
Hive可以将结构化的数据映射为一张和数据库表.
并提供SQL 操作 MR
例如
// access.txt
1.jack,12:30
2.tom,13:20
1.jack,15:20
2.tom,18:40
映射的表
create table t_access(id,name,date)
元数据
Hive的 元数据记录了 数据和表结构之间的映射
记录了表字段与文件之间的映射关系
表数据文件的存储位置
查询数据
使用 SQL语句 进行查询
select name,count(*) from t_access group by id;