1 概念:
Apache Hive™数据仓库软件有助于使用SQL读取,编写和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据中。提供了命令行工具和JDBC驱动程序以将用户连接到Hive。
数据计算:mapreduce 分布式计算 -》难度大
hive -》sql语句简化开发,减少学习成本
2 优缺点
优点:
1)操作接口采用了sql 简化开发,减少学习成本
2)避免手写mapreduce
3)hive执行延迟较高,实用场景为实时性要求不高的场景
4)在与处理大数据
5)支持自定义函数
缺点:
1)hive的sql表达能力有限HSQL
2)hive效率低
3 hive架构
提供一套接口,hive shell jdbc/odbc