大数据与传统数仓的区别?

“大数据”的概念要从两个层面去理解,一层是企业创造的海量规模的结构化、半结构化和非结构化数据,麦肯锡给这些数据定义了四大特征:具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低;另一层含义是指随之产生的大数据处理技术—云计算,只有依托于分布式处理、分布式数据库和云存储等IT工具的应用,才能最大化发挥大数据业务价值。

“数据仓库”最早是由决策支持系统(dss)演变而来,在90年代末形成成熟的理论(Bill Inmon的《建立数据仓库》和Ralph Kimball的《数据仓库的工具》)和架构体系(CIF架构),它通过抽取企业数据进行集成、组织、管理、分析,为业务员和高管提供管理决策服务。

普罗大众对大数据的理解通常包含了【海量数据+处理技术+平台工具+场景应用】,而对数据仓库的理解是一个数据开发过程、或者是一个数据建设工程,它的“传统”更多体现在开发工具落后时代、处理对象单一、应用场景保守方面;下面从几个维度来讲下“大数据”与“传统数仓”的差别:

1、商业价值

相同点是无论“大数据”项目还是“传统数仓”项目,一般都是业务驱动,有明确的业务场景需求,通过海量数据分析和挖掘规律为业务提供决策依据,并且都能基于数据价值开发出新的业务模式,真正实现数据变现的商业价值;

不同点是“传统数仓”技术诞生比较早,且只有实力强盛的大型企业会建设数仓,为企业业务运营和内部流程管理提供数据支持,应用场景相对保守单一;而“大数据”是在互联网信息大爆炸和大数据开源工具趋近成熟背景下产生的,互联网巨头的商业成功唤醒了更多中小型企业的大数据意识,并且丰富的开源工具和廉价的云计算服务让中小企业甚至是普通人都具备了大数据开发和应用的可能,所谓人多力量大各种业务需求促进了大数据场景应用发生急剧裂变,诞生了诸如金融领域自动授信、电商领域千人千面、交通领域网约车等新型业务形态,其产生的商业价值较传统数仓而言早已不是一个量级。

2、处理对象

相同点是二者处理对象都是数据,甚至在处理流程上也是围绕着数据获取、数据加工、数据管理、数据治理、数据应用服务展开,几无二致;

不同点是“大数据”技术相对“传统数仓”处理的数据类型更加多样化,比如“传统数仓”基本只擅长处理结构化或半结构化数据,而“大数据”技术除了结构化、半结构化数据外,还能处理非结构化数据,这在IOT万物互联时代显得尤为重要。

3、生产工具

相同点是二者都是围绕数据开发和应用过程提供了与之适配的工具产品,基本上每个数据处理阶段都能找到二者一一对应的产品,比如数据清洗IBM提供了datestage,而Apache开源工具提供了kettle;数据计算和存储Teradata提供了具备大规模并行处理MPP架构的TD数据库,而Apache开源了分布式处理技术的Hadoop和spark框架等等;

不同点是“传统数仓”一般都是采购国外知名厂商的大型服务器和成熟解决方案,价格昂贵可拓展性较差,而且平台工具与其它厂商极难适配,用户操作体验比较差、开发效率不高;而“大数据”技术由于开源了成套的技术框架和组件,同时先进大数据服务商还能提供一站式数据开发流程的SaaS型产品来补充开源工具“难用”的问题,在产品形态和交互体验上较传统厂商的产品有了较大幅度的提升;

4、建设方法

相同点“大数据”技术主要沿用了“传统数仓”的数据建设理论,包括逻辑架构、数据建模、数据治理、数据标准规范基本与传统数仓保持一致;

不同点是“大数据”技术处理数据的对象新增了非结构化数据,生产工具上新增了流式计算,这些还没有非常清晰明确的方法论指导建设;同时,“大数据”技术背景下,开始出现新的方法论萌芽和探索现象,比如适应互联网企业的数据建模方法论OLP建模法,“人物场景”的标签设计方法、“上帝视角”等理论;其次,“大数据”技术因为提供了海量数据和廉价计算成本,为人工智能特别是机器学习提供了可能,而这些是“传统数仓”或“BI商业智能”无法达到的高度;

 

综上,“大数据”技术是在“传统数仓”基础上发展而来,绝大部分数据建设理论仍然是一脉相承,它们处理的对象都是“海量数据”,服务目的和商业价值也基本相同;但“大数据”技术又在产品创新、高性能、低成本、拓展性、场景多样性等方面取得了巨大突破,更是让只有大型企业玩得转的大数据项目可以“平民化”从而推进商业形态朝前进化

  • 0
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
大数据传统数仓在分层上存在一些区别传统数仓通常采用经典的三层架构,包括操作层(ODS)、集成层(DWH)和应用层(OLAP)。在这种架构下,数据从操作系统抽取到ODS层,再经过清洗、集成和变换等处理,加载到DWH层,最后通过OLAP工具提供给业务应用。 而大数据分层架构通常包括原始数据层、数据处理层和数据应用层。 1. 原始数据层:大数据架构中的原始数据层类似于传统数仓中的操作层(ODS),用于存储从各种数据源获取的原始数据。这些数据可以是结构化数据、半结构化数据或非结构化数据,例如日志文件、传感器数据等。 2. 数据处理层:大数据架构中的数据处理层负责对原始数据进行处理和转换。这一层通常包括数据提取、转换和加载(ETL)过程,以及数据存储和处理的技术,如Hadoop、Spark、Hive等。数据处理层的目标是实现数据的清洗、聚合、计算和建模等操作,以便为数据应用层提供准备好的数据。 3. 数据应用层:大数据架构中的数据应用层类似于传统数仓中的应用层(OLAP)。这一层主要用于数据分析、数据挖掘和业务智能等应用。数据应用层可以使用各种工具和技术,如机器学习、数据可视化和实时分析等,来探索和发现数据中的模式、趋势和洞察,并为业务决策提供支持。 总的来说,大数据架构与传统数仓在分层上的区别主要在于原始数据层和数据处理层的引入。大数据架构更加灵活和可扩展,可以处理各种类型和规模的数据,而传统数仓则更适用于结构化数据和传统的数据处理方式。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值