随着互联网的快速发展,越来越多的人涌入互联网,互联网自此进入大数据时代。在大数据时代之后,云计算、人工智能、物联网、5G技术的发展又将大数据的发展推向高潮。
数据已经从最初的信息一步步的演变成了数据产品、数据资产。关于数据的处理技术,包含数据库、数据集市、数据仓库、数据湖、数据中台,每次数据处理的演进都代表着业务需求变化的趋势、技术的演进。
除了数据处理方式在演进之外,数据处理的基础措施也在不断的演进,包含Hadoop、Lambda、Kappa,这三种数据处理思想都是在为了解决数据处理过程中遇到的问题而产生的,每一种解决方案都有对应的场景,不存在过时之说。今天我们就一起来看看大数据基础设施的演进吧~
第一代基础设施:以Hadoop为代表的离线数据处理。早期的时候,互联网还处在一片红海,大家对于数据分析的要求也不高,主要是做报表、支撑决策,对应的离线数据分析方案就产生了。
Hadoop提供了一整套解决方案,底层以HDFS分布式文件系统做数据存储,所有的数据都通过MapReduce计算模型进行处理(把数据计算任务拆分成Map和Reduce两个过程,Map做初次处理,产生中间结果,Reduce做二次处理,拿中间结果进行分析产生最后数据);为了简化用户的使用成本,Hadoop在MapReduce之上提供了Pig、HIve平台,Pig支持海量数据并行计算,并提供接口给到上层做报表、导入关系型数据库;HIve基于SQL语句对数据进行分析错误,降低了如产品、运营人员的使用成本。整套Hadoop数据处理体系使用Zookeeper进行任务节点的协调管理、资源分配,保障系统的正常