阿里云实时大数据解决方案，助力企业实时分析与决策

最新推荐文章于 2024-10-23 10:49:09 发布

代码派

最新推荐文章于 2024-10-23 10:49:09 发布

阅读量514

点赞数

分类专栏：解决方案大数据阿里云文章标签： kafka flink hdfs spark 大数据

本文链接：https://blog.csdn.net/A1373712651/article/details/111593965

版权

性能高1倍，价格低3/4！数据库实时同步新选择！

实时分析决策的第一步就需要将数据实时同步到大数据计算引擎，DataWorks数据集成采用自研高性能引擎，在相同的机器规格情况下，RDS实时同步性能最高为其他数据同步方案的2倍，而价格可低至其1/4。通过DataWorks数据集成，企业可以进行高效、低成本、稳定的实时数据同步。

DataWorks数据集成可以追溯到2011年的DataX1.0和2.0版本，随后3.0版本正式对外提供服务，再后来公有云、专有云、阿里内部功能三版合一，建立了Data Integration 服务。在2019年，DataWorks数据集成完成了商业化，独享资源组上线，按量付费、包年包月的付费方式也成功面向了用户。在2020年，全增量实时同步解决方案正式发布。

在全增量实时同步解决方案系统中，可以从MySql、Oracle、IBM DB2、SQL server、POLARDB等关系型数据库中全量离线同步到MaxCompute、Hologres、Elasticsearch、Kafka、DataHub等大数据产品中，再实现实时抽取关系型数据库的变更信息，同步到大数据产品中。像MaxCompute这种离线数仓，可以通过同步到Log表、拆分至Delta表、Merge到Base表，最后再写入MaxCompute这样的方式做实时增量同步。

DataWorks数据集成可以通过实时库监控抽取从关系型数据库（MySQL、Oracle、PolarDB等）抽取数据，再采取消息订阅的方式汇聚实时消息流数据，汇聚起来的数据可以去做一些数据处理，包括数据过滤、字符串替换和以后将会支持的Groovy函数，这也是一个比较标准的ETL流程。处理好的数据可以多路输出到不同数据源，再配合上实时运维监控和告警系统，就形成了整库全增量的解决方案，让实时同步具备从整库全量同步到整库实时增量同步再到大数据自动增量融合这样的完整链路。另外，实时同步的架构是高可用的，DataWorks数据集成在管控层和执行层都做了备用机器结构，如果调度或者数据传输链路断了，可以紧急地切换到另一条链路，保证任务的稳定执行。

数据集成的实时同步技术自带脏数据收集机制，在整个ETL的链路中，无论是读取端还是写入端不支持的数据，都可以通过插件中心的能力收集并输出到用户配置的目标端，包括本地日志、Loghub、MaxCompute等，为数据的再处理提供支持。

在大数据上云解决方案中，通过数据集成将离线和实时的数据分别通过离线引擎（EMR、MaxCompute）和实时引擎（MaxCompute交互式分析（Hologres）、Flink）去做数据处理，然后汇聚到DataWorks中做数据开发和数据服务，包括机器学习PAI平台去做模型开发等，最后开放给数据应用去使用，包括QuickBI、DataV、Tableau等。

基于上云解决方案，建立了多种场景化解决方案，包括智能实时数仓解决方案、实时监控大屏解决方案、数据湖解决方案，其中比较典型的智能实时数仓解决方案，适用于电商、游戏、社交等互联网行业大规模数据实时查询场景：

第一步：数据采集–通过DataWorks数据集成（批量+实时）、DataHub（实时）进行统一数据采集接入。

第二步：基于DataWorks完成数据全链路研发，包括数据集成、数据开发&ETL 、转换及KPI计算等开发，以及数据作业的调度、监控、告警等。DataWorks提供数据开发链路的安全管控的能力，以及基于DataWorks的数据服务模块提供统一数据服务API能力。

第三步：实时数据按实际业务需求使用Flink中进行实时ETL（可选），结果入库MaxCompute交互式分析（Hologres）构建实时数据仓库、应用集市，并提供海量数据的实时交互查询和分析。Hologres提供实时离线联邦查询。