网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
1.数据处理领域相关架构概念
1.1.数据库的概念:
本质上是一个二维关系存储系统,存储结构化数据,比如某学校的学生信息表、某年级的学生成绩表等。它因为使用简单,结构化程度高,极大的促进了互联网的发展。
1.2.数据仓库:
本质上是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,是比数据库范围更大的库。所谓面向主题,它指的是数据仓库内的信息按照某个主题进行聚合,比如地区、成本、商品、收入、利润等等;所谓集成的,它指的是可以把不同数据库中的数据都汇聚在一起;所谓相对稳定的,它指的是数据仓库的数据不会像操作型数据库那样经常变化;所谓反映历史变化,它指的是数据仓库内的信息不只是反映企业当前情况,还可以记录分析从过去某一个时间点到现在的变化。
1.3.数据集市:
它是一个小型的数据仓库,只关注某一个主题,比如只关注成本,那么它就会只收录成本相关的数据。数据集市可以理解为:是一个小型的部门或工作组级别的数据仓库。有两种类型的数据集市——独立型和从属型。独立型数据集市直接从操作型环境获取数据。从属型数据集市从企业级数据仓库获取数据。从长远的角度看,从属型数据集市在体系结构上比独立型数据集市更稳定。
1.4.数据湖:
它是一个比数据仓库更大、对于数据也没有任何限制的大型仓库,
里面的数据像湖水一样可以自然流动,数据可以供存储、处理、分析。
在数据湖中,存储的数据没有经过任何的处理,是直接从源系统导入的数据,
它包含结构化数据、非结构化数据、半结构化数据, 也是数据仓库的数据来源。此外,(常见的数据湖工具 hudi等)
核心概念****:****是允许收集和存储大量数据而无需立即处理或分析所有数据。 数据湖的最终用户是数据科学家和工程师
1.5.数据中台:
本质上是服务于业务的数据分析系统,它从一出生开始就是为业务而生。它包含数据埋点、数据接入标准化、数据仓库抽象化、数据治理、数据服务五大模块,打通了人、物、场多个维度,更好的为前台去服务。此外在数据中台的建设中,企业组织文化也非常重要,它需要联动各个业务线去接入这套系统,标准化治理与管理,但在数据仓库的建设过程是不需要关注这一层次的。因此数据中台是数据仓库的又一次质的飞跃。
2.数仓和各大数据处理架构的对比
2.1.数据湖和数据仓库的对比:
6个角度综述数据湖与数据仓库的区别
1、数据结构:数据仓库只能存储经过处理和提炼的数据,而数据湖存储尚未出于某种目的处理的原始数据。因此,数据湖需要比数据仓库大得多的存储容量,且数据灵活、分析迅速,非常适合机器学习。
2、**加工:**数据仓库使用写入时序模式的方法来处理数据以赋予其形状和结构,而数据湖对原始数据使用读取模式来处理它。
3、**成本:**存储在数据仓库中的成本可能很高,尤其是在有大量数据的情况下,而数据湖是专为低成本数据存储而设计,成本更低廉。这就解释了为什么许多公司更喜欢数据湖。
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
a03fab5e56a57acb)**
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!