这篇文章对hive一个简介,以后会对各部分,使用,还有使用遇到的问题都会反应的。感谢大家支持
数据仓库和数据库
hive被称作数据仓库,逻辑上面和数据库一样,都是用来存取数据的。但是和数据库又有本质的区别。
W.H.Inmon关于数据仓库的定义:面向主题的、集成的、与时间相关且不可修改的数据集合。
面向主题是指数据仓库可能注重某一类型的数据,比如针对某一订单类型的数据,就是面向一个topic。这也从侧面说明数据仓库是要注重数据分析的。
而集成的可以想象成是数据是从数据库集成过来的。
与时间相关是指随之时间流逝,数据仓库可以不断往里面加东西。
不可修改,是一旦数据进去了,就不能进行修改,一般用来查询和分析。
通过这些可能还是不能明白数据仓库和数据库的区别
我用了传统的数据库和hive这个数据仓库后,给我的直观感觉就是,数据库可能偏向于对字段的操作,也就是对数据的修改,就是联机事务处理OLTP(On-Line Transaction Processing)。而数据仓库可能偏向于查询分析,联机分析处理OLAP(On-Line Analytical Processing),一般针对某些历史数据进行分析,数据量也一般比数据库要大。
什么是Hive
The Apache Hive ™ data warehouse software facilitates reading