Hive背景介绍
Hive最初是Facebook为了满足对还爱那个社交网络数据的管理和机器学习的需求而产生和发展的。互联网现在进入了大叔时代,大数据是现在互联网的趋势,而Hadoop就是大数据时代里面的核心技术,而是hadoop的MR操作专业性太强,所以facebook在这些接触上开发了hive框架,毕竟世界上会sql的人比会java的人多的多,hive可以说是hadoop相关技术的一个突破口。
Hive简介
hive是基于hadoop的数据仓库
原因:
1)数据存储在hdfs上
2)数据计算用mapreduce
Hive的应用场景:
1.Hive不适合那些需要低延迟的应用
2.Hive的最佳使用场合是:大数据集的批处理作业,例如网络
(1)日志分析:大部分互联网公司使用hive进行日志分析,包括百度、淘宝
1)统计网站一个时间段内的pv、uv
2)多维度数据分析
(2)海量结构化数据分析