-
(一)hive的优点
(1)简单容易上手:提供了类SQL查询语言HQL (2)可扩展:为超大数据集设计了计算/扩展能力(MR作为计算引擎,HDFS作为存储系统) 一般情况下不需要重启服务Hive可以自由的扩展集群的规模。 (3)提供统一的元数据管理 (4)延展性:Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数 (5)容错:良好的容错性,节点出现问题SQL仍可完成执行
-
(二)hive的缺点(局限性)
(1)hive的HQL表达能力有限
1)迭代式算法无法表达,比如pagerank 2)数据挖掘方面,比如kmeans
(2)hive的效率比较低
1)hive自动生成的mapreduce作业,通常情况下不够智能化 2)hive调优比较困难,粒度较粗 3)hive可控性差
- (三) Hive应用场景:
(1)数据仓库:数据抽取、数据加载、数据转换
(2)数据汇总:每天/每周用户点击数、流量统计
(3)非实时分析:日志分析、文本分析
(4)数据挖掘:用户行为分析、兴趣分区、区域展示