云端数据仓库的模式选型与建设

本文探讨了数据仓库的建设方案,重点比较了云服务的性价比,分析了云端数据仓库的优势,如更好的性价比、更快的交付速度和弹性能力,并介绍了Amazon Redshift、Snowflake、Microsoft Azure SQL Data Warehouse和Google BigQuery等典型云服务的特点。
摘要由CSDN通过智能技术生成

数据,对一个企业的重要性不言而喻,如何利用好企业内部数据,发挥数据的更大价值,对于企业管理者而言尤为重要。作为最传统的数据应用之一,数据仓库在企业内部扮演着重要的角色,构建并正确配置好数据仓库,对于数据分析工作至关重要。一个设计良好的数据仓库,可以让数据分析师们如鱼得水;否则可能使企业陷入无休止的问题之中,并在未来的企业竞争中处于劣势。

随着越来越多的基础设施往云端迁移,数据仓库是否也需要上云?上云后能解决常见的性能、成本、易用性、弹性等诸多问题吗?如果考虑上云,需要注意哪些方面?目前主流云厂商产品又有何特点?面对上述问题,本文尝试给出一些答案,供各位参考。本文部分内容参考了MIT大学教授David J.DeWitt的演讲材料。

一、数据仓库建设

数据仓库(DW)的建设方式有很多种,企业可以根据自身需求进行选择。下图简单罗列了主要的DW建设方案并做出扩展对比。

1.1 建设方案

1)商业方案

商业方案,是最为传统的一种,也是过去20~30年的主流方式。企业外购数仓,包括软、硬件一体交付。其典型产品很多,多为国际知名大厂,国产厂商也有部分。

2)自建+开源

这是很多互联网公司通常采用的方案,通过自建底层基础设施+部署开源软件方式完成。整个方案对企业完全自主可控,但对自有人员技术要求较高。颇为典型的产品就是GreenPlum。

3)云+开源

这是上一种方案的变体,即Iaas层通过云厂商提供,其他仍然是自建的。当企业业务已经上云,为更好地数据集成,方便数据迁移,往往会采用此方案。

4)DW云

企业直接选用数据仓库的云服务,而不再独立建设。下文将针对这种情况,重点说明。

1.2 方案对比

针对上述4种方案,从成本、运维、交付、扩展、性能等多角度进行对比。

  • 成本:包括前期购买和后期运营的费用,这里也包含人员投入的折算费用。
  • 运维复杂度:主要针对企业自有技术人员的运维工作复杂度评估。
  • 交付速度:方案的整体交付速度,包括基础设施的购买、建设。
  • 扩展性
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值