?? 前言
众所周知,在现如今大数据时代,数据越来越重要。据Gartner最新趋势分析,数据分析将成为创新起源与企业核心能力。同时国际数据公司IDC和数据存储公司希捷的一份报告表示,我国产生的数据量将从2019年的约9.4ZB增至2025年的48.6ZB。
面对如此愈加繁杂和庞大的数据,很多公司往往会被这些海量数据与各类要求所淹没,因此如何降本增效,打通数据分析与存储,提高数据数据分析的效率成为了令技术团队头疼的问题。
大数据分析就是指对规模巨大的数据进行数据分析。我们每天打开手机就能看到的疫情确诊人数,各大新闻自媒体平台滚动的疫情实时动态板块,其背后都有着一个海量数据分析的架构平台做支撑。在这样的大数据时代背景下,如何高速高效低成本地进行数据分析,已经成为了各大互联网企业需要解决的难题。
?? 数据分析平台的发展
数据分析平台的发展历程大致经过如下几个阶段:
??关系型数据库
最初,企业的技术人员通常在相对空闲的时间(例如在晚上或清晨)直接在业务数据库中执行某些数据分析查询。 当数据量增加时,通常需要以分库分表的形式在多个业务数据库之间分配逻辑上相同的一块数据。快速分析全量数据的同时不影响在线业务就变成了一件极为复杂的事情。
??线下搭建Hadoop集群
随着Google在2004年发布MapReduce论文,2006年Apache Hadoop项目发布。一些前沿的互联网公司,开始在线下机房搭建开源Hadoop集群,使用Hadoop的分布式处理能力解决数据分析中常见的数据量激增、查询出不了结果等问题。
Hadoop架构的基本优点是可扩展性高,从理论上讲,通过解决节点之间的通信和引入多管理节点,可以根据数据量的大小无限扩展集群的大小。集群规模跟需要参与计算的数据量强相关,尤其像购APP,可能在双十一用户量激增,但火上半个月后用户热情冷却,又下降到最初的业务量;而线下机房采购服务器走流程,周期基本都是以月为单位,根本无法满足快速变化的业务场景。
??云上自建Hadoop集群
云上搭建Hadoop集群可以帮助企业灵活使用Hadoop,企业可以根据需要,多次放大或缩小,很好地解决了Hadoop集群对于节点伸缩能力的诉求。云为Hadoop提供了一种经济高效的解决方案。大多数云提供商按使用情况付费,因此企业可以为所需的存储或分析付费,而无需进行前期投资或在不使用系统时支付维护费用。除此以外通过在云上可用的特定Hadoop分发,企业可以立即访问其数据以进行实时处理和分析。
??云上半托管大数据服务
云厂商也在大力推进大数据分析,推出了AWS等基于云的半托管的大数据服务。 随着云计算应用场景的不断扩展,越来越多的大数据中心需要提供更强大的计算能力来满足需求,而这些能力主要来自于云端虚拟化技术的发展。目前,大数据处理已成为行业趋势。 从简单虚拟机的性能竞争到大数据管理软件的易用性,到大数据组件的高性能等。 对于用户而言,云上半托管的云计算大数据服务的核心优势在于简化安装、升级和运维,增强可视化。 同时,由于组件是开源+自研优化,因此接口上与开源保持一致,降低了业务转型改造的成本。
?? Amazon EMR简介
Amazon EMR是云上的数据分析平台,通过 Amazon EMR 的图形化或命令行接口,用户可以快速搭建和部署基于 Amazon EC2 实例的数据分析系统,并能动态扩展集群。Amazon EMR 也可以读写其他 AWS 数据存储服务,例如 Amazon S3 和 Amazon DynamoDB。用户也可以在该平台上使用开源分析框架(如 Apache Spark、 Presto 等)运行大规模分布式数据处理作业,交互式 SQL 查询,以及机器学习 (ML) 应用程序。
特别注意:亚马逊云科技目前提供了100余种产品免费套餐。其中,计算资源Amazon EC2首年12个月免费,750小时/月;存储资源 Amazon S3 首年12个月免费,5GB标准存储容量,详情请点击下方链接:
https://aws.amazon.com/cn/free/?nc2=h_ql_pr_ft&all-free-tier.sort-by=item.a