dataworks和dataphin两款产品的区别

作为两款产品的深度使用者,浅略地谈一谈dataworks和dataphin两款产品的区别。

区别1:产品功能不同

1、Dataworks,在阿里集团内部为大家所熟知的部分是D2,在阿里云则是数加平台的主体-数据工厂。DataWorks(数据工场)具备全栈数据研发能力(数据集成与开发、 生产运维调度、离线与实时分析、数据质量治理与资产管理、安全防护、数据共享与服务、机器学习、数据应用搭建)的大数据平台;
2、Dataphin,通过输出阿里数据中台实战沉淀的大数据建设体系OneData+OneID +OneService(产品+技术+方法论),一站式提供集数据引入、规范定义、数据建模、数据研发、数据萃取的全链路智能数据构建及管理服务。 
一句话总结:  DataWorks具备全栈数据研发能力和机器学习开发能力的大数据平台,这是dataworks的优势,劣势就是不具备数据中台(数据仓库)建设方法论的指导; Dataphin具备完善的“OneData+OneID +OneService(产品+技术+方法论)” 数据中台(数据仓库)建设方法论构建体系,这是dataphih的最大优势,劣势就是不具备很强的全栈数据研发能力,暂时也不具备机器学习开发能力。----

区别2:产品定位不同

1、Dataworks 定位为大数据开发平台,ETL、数据仓库建设等对开发者不做任何限制。开发者可以利用dataworks做任意想做的工作,数据中台(数据仓库)构建的方法论也不做任何限制。开发者可以利用dataworks,既可以按照维度建模理论构建数据中台(数据仓库)、也可以按照范氏建模理论构建数据中台(数据仓库)、也可以按照E/R理论构建数据中台(数据仓库),灵活性是dataworks的优势之一,当然也是劣势之一。因为缺乏数据中台(数据仓库)建设方法论的支持,dataworks对于缺乏数据中台建设方法论经验的开发者(或者企业)不够简单易用;
2、Dataphin 定位于输出阿里巴巴数据中台方法论,开发者严格按照基于阿里多年零售经验的维度建模理论构建数据中台(数据仓库)。“设计即开发”,这是dataphin坚持的核心理念,使用dataphin的时候,开发者需要严格定义业务板块、数据域、业务过程、维度、原子指标、派生指标,然后“傻瓜式”地构建数据中台(数据仓库)。开发者可能都不用写任何代码(甚至连sql都可能不用写),只要按照上述维度建模方法论完成所有设计,即可构建数据中台(数据仓库)。----

区别3:实时计算能力

不论是dataworks还是dataphin,均定位于离线批量开发能力。对于实时计算能力的支持,dataworks比dataphin稍微更强一些。利用dataworks集成的datahub+flink等工具能力,能够实现一些简单应用场景的实时计算能力; dataphin也在规划实时计算能力,预计再过几个月,dataphin最新版本也能实现一些简单场景的实时计算能力。

【总结】

1、如果开发者(或者企业)希望傻瓜式的构建数据中台(数据仓库),而且是借鉴阿里基于零售业务积累的“OneData+OneID +OneService”方法论构建维度建模体系的数据中台,那么dataphin是不错的选择;
2、如果开发者(或者企业)希望购买一套全栈数据研发能力的大数据平台,涵盖完善的数据集成与开发、生产运维调度、离线与实时分析、数据质量治理与资产管理、安全防护、数据共享与服务、机器学习、数据微服务应用搭建等能力。而且数据中台(数据仓库)不限制于维度建体系,那么dataworks是不错的选择。

  • 2
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
DataWorks是一种数据集成与ETL处理的云服务平台,由阿里云提供。它提供了强大的数据集成、数据开发、数据操作以及数据治理功能,可以帮助用户在云端快速高效地完成数据的准备和处理工作。 DataWorks可以支持多种数据源的集成,包括关系型数据库、非关系型数据库、大数据存储等,用户可以通过简单的拖拽、可视化的方式完成不同数据源之间的数据迁移和转换。同时,DataWorks提供了强大的数据开发功能,支持用户通过编写SQL、Python等脚本的方式进行数据处理和计算。 除了支持数据的集成和开发,DataWorks还提供了数据操作和数据治理的功能。例如,用户可以通过DataWorks的任务调度和监控功能,定时运行数据处理任务;同时,DataWorks还提供了数据质量监测和数据安全性控制的功能,帮助用户监控和保护数据的质量和安全。 Druid是一种开源的高性能实时数据查询与分析引擎。它专注于处理大规模的实时数据流,并提供快速查询和聚合的能力。Druid的设计目标是支持快速的数据查询和分析,特别适用于处理时间序列数据和多维度数据。 Druid的核心是一个分布式、列式存储的数据索引。它采用了多级缓存和索引优化算法,能够快速地进行数据的过滤和聚合。Druid还具备水平扩展和高可用性的特性,可以支持大规模数据的实时查询和分析。 Druid提供了多种查询接口和集成方式,用户可以通过SQL、REST API等方式进行数据查询和分析。它还支持常用的分析操作,如时间序列分析、Top-N查询、近邻查询等,可以帮助用户快速探索和挖掘数据。 总而言之,DataWorks是一个灵活的数据集成与处理平台,帮助用户在云端完成数据的准备和处理工作,而Druid是一个高性能的实时数据查询和分析引擎,专注于处理大规模的实时数据流。两者可以结合使用,通过DataWorks进行数据的集成和开发,然后使用Druid进行快速的数据查询和分析。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值