数据仓库的本质是什么?

今天我们来聊聊数据仓库的本质:

数据仓库的本质

其实很多企业做数据仓库的时候,都忽略了数仓与BI、数据库的差异,只去搞底层数据,不去做数据服务和应用,其实就是把数据仓库给狭义化了。

其实数据仓库可以看成是BI的基础版本、数据库的升级版本,我们可以把公司里的数据都想象成一个个文件夹,数据库就是这一个个文件柜,这个文件柜存放着非常多的数据,无论这个数据是什么、或者是如何组织的。

而当文件非常多、种类非常复杂,我们想要寻找某一个文件夹的时候,如果每个文件柜每个文件柜的去找,实际上是非常低效并且非常耗费成本的,因此建立一个档案室,对不同的文件柜进行编号、归类、分组,这就能极大程度上方便我们对数据源进行快速定位。这个档案室就是数据仓库。

我们需要更为庞大的数据仓库,帮助我们去抓取多个数据源的数据库数据,而抓取数据源的过程就可以理解为ETL(extract, transform, load) 的工作,这样去理解一个企业的数据架构就会简单很多。

因此数据仓库的本质,其实就是整合多个数据源的历史数据进行细粒度的、多维的分析,帮助高层管理者或者业务分析人员做出商业战略决策或商业报表。

数据仓库的架构

简单来说数据仓库的架构分为四个层次:

ODS层:存放原始数据,直接加载原始日志、数据,数据保存原貌不做处理。

DWD层:结构与粒度原始表保持一致,对ODS层数据进行清洗

DWS层:以DWD为基础,进行轻度汇总

ADS层:为各种统计报表提供数据

这里要注意数据仓库的架构当中,各个系统的元数据通过ETL同步到操作性数据仓库ODS中,对ODS数据进行面向主题域建模形成DW(数据仓库),DM是针对某一个业务领域建立模型,具体用户(决策层)查看DM生成的报表。

也就是说,我们所看到的数据不是直接从数据底层抽取的,相当于我们访问数据仓库的时候,是让图书管理员帮你找一个文件柜,那么怎么更高效地去找,就是数据仓库建设中很重要的一部分工作——数据建模,包括数据的存储模型、逻辑模型、概念模型等等。

这里举个例子:

以最常见的制造业为例,底下不同分厂的信息系统厂商各不相同,这就导致数据仓库中可能有来自前端系统(供应商、招标系统等)、MES系统(不同分厂的MES)、业务系统(不同分厂的CRM、OA、SAP系统等)的数据,因此导致系统中数据结构、数据标准、流程流转方式都存在差异。

再具体点说,例如在统计良率、OEE的时候,各厂按各自的方法进行统计然后汇报给领导,但由于各厂的数据过于分散,没有统一的计算标准,所以对良率的计算逻辑也不同,导致指标口径不一致,无法统一管理指标数据,这个数据也就失去了参考价值,到头来白忙活一场。

而这种时候,我们通常的解决方法是:实现数据中心化,逻辑统一化。

从众多跨地域的业务系统通过实时同步增量方式,将分散在各处的数据,汇聚到统一的数据中心,从业务数据库中原表原样取出数据,形成数据仓库的ODS层,为后续加工提供原始材料。

数据仓库搭建好处

搭建数据仓库(Data Warehouse)解决数据分析和管理中的一系列问题,带来了一系列好处,主要包括:

1.数据集成:组织中的数据通常分散在不同的来源和系统中,如关系型数据库、文件系统、云存储等。数据仓库提供了一个集中的存储位置,允许将这些分散的数据集成到一个统一的环境中。

2.数据清洗和转换:原始数据可能包含错误、重复或不一致的信息。数据仓库在存储数据之前,通常会进行清洗和转换,以确保数据的质量。

3.数据模型优化:数据仓库中的数据通常按照特定的业务需求进行组织和建模,这有助于提高查询性能,并简化数据分析和报告的过程。

4.查询和报告:数据仓库提供了高效的查询工具和预定义的报告,帮助用户快速获取业务洞察和做出决策。

5.历史数据存储:数据仓库能够存储历史数据,支持时间序列分析,这对于趋势分析和预测建模非常重要。

6.数据的多维分析:数据仓库支持多维数据模型,允许用户从不同的角度和维度对数据进行分析,这在传统的关系型数据库中往往难以实现。

7.数据的可扩展性:随着数据量的增长,数据仓库可以水平扩展,以处理更大的数据集。

8.数据的安全性和访问控制:数据仓库提供了数据安全和访问控制机制,确保敏感数据的安全性和合规性。

9.提高决策效率:通过集中的数据存储和高效的数据分析工具,数据仓库能够帮助决策者更快地获取关键信息,提高决策效率。

10.支持复杂的数据分析:数据仓库可以集成高级分析工具和算法,支持复杂的数据分析和机器学习任务。

11.降低数据管理成本:通过集中管理数据,数据仓库有助于降低数据冗余和数据管理的总体成本。

总的来说,数据仓库是为了提供一个结构化的环境,以便更好地管理和分析数据,支持组织的业务决策和战略规划。

数仓搭建过程中的数据编排能力:多样化算子和多种任务调度方式,提供多样化异构数据处理能力;在标准化的要求下,通过各系统原始的指标定义,形成统一的数据处理逻辑,在低代码实时数据调度平台FineDataLink进行内部数据转换,完成对异构数据的梳理,进行ODS>DW>DM层的数据逐层编排,最后形成统一逻辑的数据输出,以供企业进行统一管理。

ODS层:数据存储:本层数据,一般会按照来源业务系统的分类方式而进行分类,在ODS数据存储层中,我们不会对数据模型进行修改,会维持原有的数据模型不变。

DW: 是数据仓库的主体。DW层将ODS层中获得的数据按照主题建立各种数据模型。

DM层:数据集市或宽表。DM层为面向最终应用的主题层,一般依据前端报表/业务包需求进行设计,所以DM层表不需要考虑复用,每一张DM表仅为一张报表所服务

总而言之,在数字化时代下,大数据治理对企业数据建设的重要性不言而喻,然而实现的困难有时也让人望而却步,因此选择合适的技术和工具会达到事半功倍的效果。帆软FineDataLink——中国领先的低代码/高时效数据集成产品,能过为企业提供一站式的数据服务,通过快速连接、高时效融合多种数据,提供低代码Data API敏捷发布平台,帮助企业解决数据孤岛难题,有效提升企业数据价值。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值