典型大数据架构有哪些?我该怎么选择?

  讨论大数据架构,不可避免要讨论传统的结构化存储和数据仓库。

      PS:最原始的结绳记事、仓颉造字不在咱们讨论范围内哈,咱们主要讨论计算机出现以后的数据存储

 

      我们对数据存储方式的认知顺序一般是:

    注意:这个演变过程,并不代表后者代替前者,每种方式都有其适合的应用场景,多种存储方式在一定时间内会是同时存在。他们的优缺点分析如下:

存储方式 简介 优点 缺点

结构化

数据库

也称作行数据库,使用二维表结构来逻辑表达现实中的信息。 通过事务保持数据一致性、数据可更新且开销很小,可以进行Join等复杂查询。

需sql解析,数据量大和高并发场景读写性能不足;

为保证数据一致性,加锁影响并发操作;

不能非结构化存储;

价格高、扩展复杂;

据说有个“阻抗失谐”问题,自行脑补吧。

数据仓库 面向主题的、整合的、随时间变化的、相对稳定的历史数据集合,支撑历史的、分析的和商务智能的数据需求。

面向主题

效率比较高

数据质量较高

扩展性较高

...

数据集中存储,查找和编译时比较长;

技术难度造成人员成本高;

采购硬件和软件成本较高;

大数据
 
存储、管理、分析超出了传统数据库软件工具能力范围的数据集合,具有海量、多样性、价值密度低、处理速度快、真实性的特性。

提高生产力

降低硬件成本

更好的决策

改善客户服务

更好的创新

... 

基础架构和数据分析方面面临诸多挑战。

资源利用率低

应用部署复杂

运营成本高

高能耗等

 

 

    抛开结构化存储和数据仓库,咱们重点讨论大数据架构。

    针对传统数据存储方式的种种缺陷,近些年出现了多种解决方案,其中以Hadoop体系为首的大数据分析平台逐渐表现出优异性,围绕Hadoop体系的生态圈也不断的变大。对于Hadoop系统来说,基本上解决了传统数据仓库的瓶颈问题,但是也带来一系列的问题(没有完美的架构,只有合适的架构): 

(1)从数据仓库转到大数据架构,多数不能平滑演进,基本等于推翻重做。

(2)大数据下的分布式存储强调数据的只读性,类似于Hive,HDFS这些存储方式都不支持update(或不擅长),写操作对并行的支持也不是很好,这些特性导致其应用场景具有一定的局限性。

      大数据架构也不能

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值