简介
大数据是现如今兴起的名词,提到大数据肯定少不了Hadoop、Spark、Kafka等等名词。那么Hadoop与大数据有什么关系。Hadoop又与HDFS、MapReduce、Spark有什么关系?
一句话解释版本:
大数据是与传统数据仓库相对应的概念,它是一种理念与方法。
Hadoop是与Oracle、Teradata相对应的概念,它是实现大数据理念的手段与工具。
Hadoop是一个内核与一大堆组件共同组合成的生态系统。
大数据的概念
与传统数据仓库一样,大数据也是数据存储与处理的一种方式。
近年来,数据量的爆炸性增长使得传统数据仓库无法满足海量数据的存储、处理、挖掘等需求。大数据从3个角度填补了传统数仓的缺陷。
- 存储量
由于数据源的多样化,企业数据由之前的交易数据拓展现在的行为数据、竟对数据、CRM、 财务数据。很多企业也获得了大量的实时数据。
因此,数据量的增长使得大多数数据仓库很难存储PB,甚至EB级别数据。大数据则给这种存储提供了可能性。
- 成本
海量数据带来的结果就是昂贵的存储成本。
在传统数据仓库中,加硬盘、扩容、加节点,都是极其费成本的措施。之前由于数据的增长幅度不明显,历史数据保存时间较短,因此不会出现频繁扩容的情况。但是由于数据源与数据量的暴涨&#x