实时数仓应用价值(上)

欢迎关注WX公众号:数据运营入表资产化服务

获取更多算法源码材料

2023数据资源入表白皮书,推荐系统源码下载-CSDN博客

浅析研发支出费用化和资本化的区别-CSDN博客

商业银行数据资产估值白皮书,推荐系统源码下载-CSDN博客

用友BIP数据资产入表解决方案白皮书,推荐系统源码下载-CSDN博客


 

一、实时数仓架构解决了什么问题

二、离线数仓如何分层以及每个层级的用途

三、数仓分层的必要性

四、Lambda架构

五、Kappa架构

六、具体五种方案的解析

七、选型建议

八、分享

九、结语&延伸思考

一、实时数仓架构解决了什么问题

传统数据仓库主要处理T+1数据,即今天产生的数据分析结果明天才能看到,这已经无法满足企业对实时数据处理的需求。因此,实时数仓架构应运而生,其能够提供实时数据处理的能力,以满足企业对于数据实时性的迫切需求。

实时数仓架构可以提高数据处理的速度和效率,使企业能够更快地获取数据洞察,从而更好地支持决策和业务运营,为企业提供更好的数据支持。

二、离线数仓如何分层以及每个层级的用途

在介绍实时数仓前,我们先回顾下离线数仓的分层架构,这将对我们后面理解实时数仓架构设计具有很大帮助。

数仓一般分为以下几层:

  1. ODS层(操作数据层):这一层是数仓的最底层,主要存储原始数据,保持数据原貌不做任何修改,起到备份数据的作用。数据采用压缩,减少磁盘的存储空间。
  2. DWD层(数据仓库明细层):这一层需要对ODS层的数据按照主题进行加工和划分,构建最细粒度的明细事实表。同时,它需要保持数据的原子性,也就是说每条数据记录都必须有对应的源系统记录。DWD层是构建其他数据层的基础,需要保证其数据质量。
  3. DWS层(数据仓库汇总层):这一层主要对DWD层的数据进行汇总,以构建更高级别的汇总表。这些汇总表可以提供更快速的数据访问和更高效的数据分析。DWS层的表通常按照不同的主题和维度进行组织,例如时间、地区、产品等。
  4. ADS层(应用数据服务层):这一层主要提供数据服务和应用功能,例如报表、查询、分析等。它直接支持企业的各种数据应用,如报表制作、决策支持、商业智能等。

三、数仓分层的必要性

数仓分层的必要性主要体现在以下几个方面:

  1. 清晰数据结构:分层可以使得数据结构更加清晰,每一层都有其特定的作用域,方便用户理解和使用数据。
  2. 数据血缘追踪:通过分层,可以追踪数据的来源和去向,快速定位问题,并清楚了解问题的危害范围。
  3. 数据复用,减少重复开发:规范数据分层,开发一些通用的中间层数据,能够减少重复计算,避免每个数据开发人员都重新从源系统抽取数据进行加工,节省了用户的开发时间和精力。
  4. 把复杂问题简单化:通过分层,可以把一个复杂的任务分解成多个步骤来完成,每一层只处理单一的一个步骤,便于维护数据的准确性。
  5. 屏蔽原始数据和业务的影响:分层可以屏蔽原始数据和业务的影响,提高数据稳定性和连续性。同时,通过规范和屏蔽源头业务系统的复杂性,保证下游数据用户使用数据的便捷和规范。
  6. 提高数据管理效率:分层使得数据在整个仓库中的流转更为清晰,方便掌握数据的生命周期,每一层负责特定的职责,便于使用者理解使用,提高了数据管理效率。

四、Lambda架构

Lambda架构将数据分为实时数据和离线数据。

针对实时数据使用流式计算引擎进行计算(例如Flink),针对离线数据使用批量计算引擎(例如Spark)计算。然后分别将计算结果存储在不同的存储引擎上对外提供数据服务。

这种架构的优点是离线数据和实时数据各自计算,既能保障实时为业务提供服务,又能保障历史数据的快速分析。它分别结合了离线计算引擎与流式计算引擎二者的优势。

但是有一个缺点是离线数据和实时数据的一致性比较难保障,一般在离线数据产生后会使用离线数据清洗实时数据来保障数据的强一致性。

五、Kappa架构

这种架构将数据源的数据全部转换为流式数据,并将计算统一到流式计算引擎上。

这种方式的特点使架构变得更加简单,但是不足之处是需要保障数据都是实时的数据,如果数据是离线的话也需要转化为流式数据的架构进行数据处理,具体架构可结合这张图来看。

课程总体架构请观看89讲。数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。数据仓库的应用有:1.数据分析、数据挖掘、人工智能、机器学习、风险控制、无人驾驶。2.数据化运营、精准运营。3.广告精准、智能投放等等。数据仓库是伴随着企业信息化发展起来的,在企业信息化的过程中,随着信息化工具的升级和新工具的应用,数据量变的越来越大,数据格式越来越多,决策要求越来越苛刻,数据仓库技术也在不停的发展。数据仓库有两个环节:数据仓库的构建与数据仓库的应用。随着IT技术走向互联网、移动化,数据源变得越来越丰富,在原来业  务数据库的基础上出现了非结构化数据,比如网站log,IoT设备数据,APP埋点数据等,这些数据量比以往结构化的数据大了几个量级,对ETL过程、存储都提出了更高的要求。互联网的在线特性也将业务需求推向了实时化 ,随时根据当前客户行为而调整策略变得越来越常见,比如大促过程中库存管理,运营管理等(即既有中远期策略型,也有短期操作型)。同时公司业务互联网化之后导致同时服务的客户剧增,有些情况人工难以完全处理,这就需要机器 自动决策 。比如欺诈检测和用户审核。总结来看,对数据仓库的需求可以抽象成两方面: 实时产生结果、处理和保存大量异构数据。本课程基于真实热门的互联网电商业务场景为案例讲解,结合分层理论和实战对数仓设计进行详尽的讲解,基于Flink+DorisDB实现真正的实时数仓,数据来及分析,实时报表应用。具体数仓报表应用指标包括:实时大屏分析、流量分析、订单分析、商品分析、商家分析等,数据涵盖全端(PC、移动、小程序)应用,与互联网企业大数据技术同步,让大家能够学到大数据企业级实时数据仓库的实战经验。本课程包含的技术: 开发工具为:IDEA、WebStorm Flink 1.11.3Hadoop 2.7.5Hive 2.2.0ZookeeperKafka 2.1.0、Spring boot 2.0.8.RELEASESpring Cloud Finchley.SR2Flume 、Hbase 2.2.6DorisDB 0.13.9、RedisVUE+jQuery+Ajax+NodeJS+ElementUI+Echarts+Datav等课程亮点: 1.与企业接轨、真实工业界产品2.DorisDB高性能分布式数据库3.大数据热门技术Flink最新版4.真正的实时数仓以及分层设计5.海量数据大屏实时报表6.数据分析涵盖全端(PC、移动、小程序)应用7.主流微服务后端系统8.数据库实时同步解决方案9.涵盖主流前端技术VUE+jQuery+Ajax+NodeJS+ElementUI+Echarts+Datav10.集成SpringCloud实现统一整合方案11.互联网大数据企业热门技术栈12.支持海量数据的实时数仓报表分析13.支持全端实时实时数仓报表分析14.全程代码实操,提供全部代码和资料 15.提供答疑和提供企业技术方案咨询企业一线架构师讲授,代码在老师的指导下企业可以复用,提供企业解决方案。  版权归作者所有,盗版将进行法律维权。 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值