要学好大数据除了要了解Hadoop之外,还要对hive非常了解。
那么hive是什么呢?hive就是基于Hadoop的数仓,其核心功能就是将结构化文件映射成为一张表,基于表提供了hive SQL 类SQL语言支持查询。其本质就是用户通过写SQL,hive将其转化为mr进行数据分析。
通过hive构建数据仓库,可以减少学者的学习成本,简单易得上手容易。
那么什么又是数据仓库呢?数据仓库其实就是面向分析的集成化数据平台,分析的结果给企业提供决策支持。
数据仓库尤其四大核心特征:
- 面向主题性:在数仓中展开分析时,首先确定分析的主题,然后基于主题寻找采集跟主题相关的数据。
- 集成性:数仓不是生成数据的平台,其数据来自各个不同的数据源。
- 不可更新性:数仓上面的数据几乎没有修改操作的,都是分析操作。
- 时变性:数仓是一个持续维护建设的东西,站在时间的角度,刷仓的数据成批次变化更新。
说道数据仓库就会引申出数据库,那么两者之间有什么区别呢。简单的来说就是OLAP和OLTP系统的区别。数据库是面向事务支持事务的,OLTP系统注重的是数据安全、完整、响应效率。而数据仓库也是OLAP系统就是只用作数据分析工作。
数据仓库也不是大型的数据库,也没有要取代数据库的目标,只是一个数据分析平台。