十年前(2012年11月),亚马逊云科技在首届亚马逊云科技re:Invent大会上,发布了Amazon Redshift,这是第一个完全托管、PB级的云数据仓库。相对于传统的本地数据仓库解决方案,Amazon Redshift的发布彻底变革了行业的格局。
传统的本地数据仓库解决方案不仅成本高、缺乏弹性,而且需要很高的调整和操作技术水平。在Amazon Redshift的帮助下,使用现有商业智能工具分析数据不仅成本低廉,而且简单高效。在发布之后Amazon Redshift成为亚马逊云科技增长最快的服务之一。如今,全球范围内,数以万计的客户在亚马逊云科技中使用Redshift,每天用来处理EB级数据。
在过去的几年里,Amazon Redshift的用例已经发生变化。为应对这种变化,亚马逊云科技持续对Amazon Redsfhit进行架构改进,来保持其行业领先。通过分层存储、多集群自动扩展、跨集群数据共享以及AQUA查询加速层等创新,Redshift提高了存储和计算的可扩展性。
Amazon Redshift Serverless是云原生数据仓库架构创新的集大成者,允许客户在无须设置和管理数据仓库基础设施的情况下运行和扩展数据分析。Amazon Redshift通过独有特性(例如使用Spectrum查询数据湖、Redshift ML)与亚马逊云科技云服务进行广泛整合与集成,使得它具备承担超越传统数据仓库的使用场景与能力。
近日,亚马逊云科技推出Amazon Redshift流式注入(Streaming Ingestion)功能预览,让客户能够直接从Amazon Kinesis Data Streams(一项无服务器流式数据服务,可简化任何规模的数据流捕获、处理和存储)向Amazon Redshift数据仓库中注入实时数据并分析。
Amazon Redshift流式注入功能可以让客户无须在Amazon Simple Storage Service(Amazon S3)中暂存数据,直接将每秒数百兆的流数据接收到Amazon Redshift数据仓库集群并处理。
在游戏实时数据分析、在线广告点击流分析、零售POS机数据流分析、应用日志和网络日志分析、物联网设备数据分析等应用场景中,应用或者终端设备会在短时间内持续生成巨量数据流。这些数据流会被送到Amazon Kinesis Data Streams进行实时缓存并最终使用Amazon Redshift完成数据分析。
以往,客户如果想从Amazon Kinesis Data Streams向Amazon Redshift注入实时数据,需要先在Amazon S3中暂存数据,然后使用Copy命令加载数据来构建数据管道,这一过程通常需要几分钟才能完成。但越来越多客户希望能够分析实时数据流以尽早获得数据洞察。
Amazon Redshift流式注入功能的推出,满足了客户真实数据流对数据处理规模和实时性的要求。基于这一功能,客户可以同时连接来自多个Amazon Kinesis Data Streams的数据,将实时数据直接注入Amazon Redshift。客户使用现有工具和熟悉的SQL执行下游处理和转换,无须额外的成本,在几秒钟内从数据中获得洞察。
Amazon Redshift流式注入大幅简化流式数据管道构建,加速数据处理,支持以低延迟、高吞吐量访问数据仓库中的实时数据,帮助数据工程师、数据分析师和大数据开发者将数据分析从“批量”转向“实时”。
目前,数以万计的客户每天使用Amazon Redshift处理EB级的数据,为高性能商业智能(BI)报告、仪表板应用程序、数据探索和实时分析等分析工作负载提供支持。Amazon Redshift流式注入功能的推出将进一步丰富客户的使用场景。客户可将流式数据实时分析与数据仓库中的其它数据源相结合,丰富和扩展实时分析应用场景。
Amazon Redshift流式注入功能的推出,进一步丰富了亚马逊云科技无服务器分析产品服务不同客户业务场景的能力,可以让客户无须配置、扩展或管理底层基础设施,即可轻松地处理实时动态的数据同步,为机器学习项目提供兼具性能和成本效益的实时特征数据准备。也为企业打造现代化数据战略,向数据驱动型企业迈进,提供了新的创新方向。