Hive home【Hive文档首页】

最新推荐文章于 2022-12-01 13:59:47 发布

DV2

最新推荐文章于 2022-12-01 13:59:47 发布

阅读量793

点赞数

分类专栏： Hadoop-Hive 文章标签： hadoop hive

3 篇文章 0 订阅

订阅专栏

留着方便查询吧

Apache Hive

Apache Hive是一个建立在Apache Hadoop之上的数据仓库管理和查询软件。它提供了如下功能:

Hive定义了一种类似SQL的查询语句叫QL（其实就是SQL了）。它还提供了高级的功能让熟悉MapReduce框架的程序员来自定义Map或者Reduce来实现更为复杂的分析工作。当然QL还支持扩展的自定义函数（UDF）、自定义聚合函数（UDAF）、自定义表函数（UDTF）。

Hive并不强制读取或者写入的数据使用特定格式。至于使用什么样的格式用户完全可以自己控制，详细见 File Formats and Hive SerDe in the Developer Guide 。

Hive并非设计用于OLTP系统因为它不支持实时查询或者行级的更新（要实现这块需要结合HBase）
。Hive最适用的场景是在大批量的数据处理作业上面（如web日志），Hive最重视的东西是可升缩性（跟M-R一样）、可扩展性、容错、松耦合格式的输入。

Hive包含两大组件HCatalog和WebHCat：

HCatalog 提供了基于Hadoop的元数据和数据表的管理。包括Pig和MapReduce。这样可以很轻松的进行数据读取和写入。其实就是hadoop之上的统一数据抽象服务。
WebHCat 提供了一个服务，你可以使用Hadoop MapReduce(or YARN)、Pig、Hive JOB或者执行Hive元数据操作使用HTTP(REST风格)接口。

Hive Tutorial
HiveQL Language Manual: Commands, CLIs, File Formats, Data Types,DDL (create/drop/alter/truncate/show/describe), Statistics (analyze), Indexes, Archiving,DML(load/insert/update/delete, import/export, explain plan),Queries (select), Operators and UDFs, Locks, Authorization 【语言手册】
Procedural Language: Hive HPL/SQL 【程序语言，卧槽这个屌了啊相当于PLSQL，不过要在2.0】
Hive Configuration Properties【配置参数】
Hive Clients
- Hive Client (JDBC, ODBC, Thrift) 【老的客户端】
- HiveServer2 Client and Beeline 【新的客户端，肯定用这个了】
Hive Web Interface 【Web接口】
Hive SerDes 【序列化和反序列化器】
Hive Accumulo Integration【Hive和Accumulo集成，这玩意和HBase类似吧，用的太少了】
Hive HBase Integration【和HBase集成】
Hive Transactions【Hive的事物特性】
- Streaming Data Ingest【流数据】

Realease Number	Original Number
1.1.0	0.15.0
1.0.0	0.14.0

https://cwiki.apache.org/confluence/display/Hive/Home

关注