大数据理论体系
文章平均质量分 74
主要包括大数据的相关理论知识,比较适合对大数据感兴趣但是不太了解大数据到底能干什么的读者。
Shockang
Apache Spark Contributor
展开
-
大数据理论体系
目录结构大数据是什么?大数据是如何发展起来的?大数据处理的基本流程是什么?为什么说数据不动代码动?移动计算比移动数据更划算?DAG对大数据处理有什么好处?批处理和流处理如何区分? 有边界数据和无边界数据如何区分?批处理中如何提高CPU利用率?什么是事件时间和处理时间?Workflow设计模式指的什么?什么是商业智能(BI)?分布式锁是什么?如何实现?分布式事务是什么?如何实现?分布式锁和分布式事务有什么区别?CAP定理是什么?BASE理论是什么?分布式系统有哪些衡量指标?原创 2021-04-11 23:48:07 · 29931 阅读 · 34 评论 -
大数据处理架构详解:Lambda架构、Kappa架构、流批一体、Dataflow模型、实时数仓
面对海量异构数据,如何设计高效可靠的大数据处理架构?本文全方位解析大数据处理的典型架构模式。想知道兼具低延迟和批处理能力的Lambda架构和Kappa架构有何区别?简单高效的流批一体架构如何实现?灵活的Dataflow数据流模型的原理是什么?实时数仓如何做到毫秒级分析?本文通过详细的原理分析和业界案例,以八股文体系全面介绍各类大数据处理架构的模式、特点、适用场景,并对不同架构进行横向对比。无论你是架构设计者,还是大数据开发者,本文都将提供思路清晰的理论指导,以及可落地的技术细节。原创 2023-07-27 11:08:17 · 13386 阅读 · 0 评论 -
大数据存储架构详解:数据仓库、数据集市、数据湖、数据网格、湖仓一体
本文以文字+思维导图+表格的形式详解了数据库、数据仓库、数据集市、数据湖、数据网格、湖仓一体之间的区别。原创 2023-07-03 11:27:41 · 14544 阅读 · 1 评论 -
实时数仓详解
本文讨论了实时数仓(RTDW)的背景、定义、优势和挑战、架构、应用案例以及技术实现。实时数仓是一种现代化的数据仓库,具有大数据规模的小数据语义和性能。它可以处理实时数据、最新数据和历史数据,并且能够跨数据域进行相关性分析。实时数仓具有更快的数据到达和查询速度,可以在集成且安全的平台上完成所有功能。实时数仓的优势包括更快的决策、数据民主化、个性化的客户体验、提高业务敏捷性和解锁新的业务用例。然而,实时数仓也面临着**ETL性能**和**复杂实时计算场景**等挑战。原创 2023-06-30 15:48:03 · 2738 阅读 · 0 评论 -
分布式计算模型详解:MapReduce、数据流、P2P、RPC、Agent
本文主要介绍了以下五种分布式计算模型的详细解释:1. MapReduce:介绍了Google提出的MapReduce模型,包括Map阶段和Reduce阶段的功能和特点,以及在处理大规模数据集中的应用。2. 数据流:介绍了数据流计算模型,将计算任务看作是一系列数据流的处理过程,适用于实时处理大量数据的场景,具有时序语义和流控制等特点。3. P2P:介绍了P2P计算模型,其中计算任务由多个节点协同完成,节点之间可以直接通信,具有高度的可扩展性和弹性,常用于分布式存储和分布式计算等。4. RPC:介绍了原创 2023-06-29 09:46:58 · 1940 阅读 · 0 评论 -
分布式数据模型详解:OldSQL => NoSQL => NewSQL
从 OldSQL 到 NoSQL 再到 NewSQL,是数据库技术在适应互联网时代的不断演进过程,是技术不断创新和应用场景的不断变化。原创 2023-06-28 15:03:49 · 1919 阅读 · 0 评论 -
单机和分布式有什么区别?分布式系统相比单机系统的优势在哪里?
本文详解了单机和分布式的区别,对于新手来了解分布式系统有较大的帮助。原创 2023-06-28 00:12:31 · 2724 阅读 · 0 评论 -
增量数据抽取技术
各种数据增量抽取机制没有哪一种机制具有绝对的优势,不同机制在各种因素下的表现大体上都是相对平衡的。ETL 实施过程中究竞选择哪种增量抽取机制,需要根据实际的数据源系统环境进行决策,需要综合考虑源系统数据库的类型、抽取的数据量(决定对性能要求的苛刻程度)、对源业务系统和数据库的控制能力以及实现难度等各种因素,甚至结合各种不同的增量机制以针对环境不同的数据源系统进行 ETL 实施原创 2023-06-02 11:07:19 · 1483 阅读 · 1 评论 -
大数据存储方式有哪些?
数据常用的存储介质为磁盘和磁带,数据存储组织方式因存储介质不同而异。直接连接存储(DAS)适用于小型网络及一些硬盘播出系统,网络连接存储(NAS)采用独立于服务器的一种文件服务器来连接所存储设备,存储域网络(SAN)通过支持SAN协议的光纤信道交换机,将主机和存储系统联系起来,组成一个LUN Based的网络。DAS、NAS和SAN三种存储方式各有优劣,相互共存,占到了现在磁盘存储市场的70%以上。SAN和NAS系统可以利用自动精简配置技术来弥补早期存储分配不灵活问题。原创 2023-06-01 15:08:33 · 5361 阅读 · 0 评论 -
数据计算、数据分析和数据挖掘有什么区别?
本文主要讲解数据计算、数据分析和数据挖掘三者之间的区别和联系原创 2023-05-21 22:20:27 · 598 阅读 · 0 评论 -
分布式和大数据有什么区别?
本文详解了分布式和大数据之间的区别原创 2023-04-22 15:49:48 · 2375 阅读 · 0 评论 -
数据集市是什么?数据集市和数据仓库有什么区别
本文解释了数据集市和数据仓库的概念,并列举了它们的区别,如设计目的、覆盖范围、数据量、数据源、数据结构、灵活性、使用者、实现难度和成本等方面。原创 2023-04-16 23:39:20 · 1435 阅读 · 0 评论 -
分布式一致性算法——Paxos 和 Raft 算法
本文主要围绕Paxos算法和Raft算法进行了讨论。我们首先介绍了分布式一致性算法的概念和必要性,然后分别从算法基本原理、角色和状态、基本流程、选举过程、优缺点等方面详细介绍了Paxos算法和Raft算法。同时,我们也对这两种算法进行了比较和区分,并讨论了如何选择合适的算法以满足不同场景下的需求和限制。为了更加清晰地描述算法的流程,我们也对Paxos算法和Raft算法的基本流程和选举过程进行了图形化展示。本文将对从事分布式系统相关工作的人员有所帮助,有助于更好地理解分布式一致性算法。原创 2023-02-26 20:58:00 · 5211 阅读 · 0 评论 -
一篇文章了解分布式的基本概念
分布式系统是一种由多台计算机组成的系统,它们可以通过网络进行通信,共同完成一项任务。原创 2023-02-12 23:41:20 · 441 阅读 · 0 评论 -
数据网格(Data Mesh)是什么?
就像软件设计团队从整体应用程序过渡到微服务架构一样,数据网格(Data Mesh)在很多方面来讲都是微服务的数据平台版本。正如 ThoughtWorks 的顾问和原架构师 _Zhamak Dehghani_ 首次定义的那样,数据网格(Data Mesh)是一种数据平台架构,通过利用面向领域的自助式设计,拥抱企业中无处不在的数据。借用 _Eric Evans_ 的领域驱动设计理论(DDD),这是一个灵活、可扩展的软件开发范式,将代码的结构和语言与其相应的业务领域相匹配。原创 2022-09-11 11:23:05 · 3663 阅读 · 0 评论 -
湖仓一体(Lakehouse)是什么?
湖仓一体(Lakehouse)是一种新的大数据存储架构,结合了数据仓库和数据湖的最佳功能。湖仓一体为你的所有数据(结构化、半结构化和非结构化)提供单一的存储库,同时可以实现机器学习、商业智能(BI)和实时计算等功能。原创 2022-09-11 09:37:21 · 10079 阅读 · 2 评论 -
Serverless 是什么?BaaS 和 FaaS 是什么?
Serverless 是一个云原生开发模型,允许开发人员构建和运行应用程序,而无需管理服务器。原创 2022-09-04 23:48:33 · 1746 阅读 · 0 评论 -
典型的数据仓库模型实施过程详解
Kimball 模型实施过程Kimball 维度建模主要探讨**需求分析、高层模型、详细模型和模型审查**整个过程。 构建维度模型一般要经历四个阶段:- 第一个阶段是高层设计时期定义业务过程维度模型的范围,提供每种星形模式的技术和功能描述;- 第二个阶段是详细模型设计时期,对每个星形模型添加属性和度量信息;- 第三个阶段是进行模型的审查、再设计和验证等工作;- 第四个阶段是产生详细设计文档,提交 ETL 设计和开发。 ...原创 2022-08-08 23:57:12 · 347 阅读 · 0 评论 -
典型的数据仓库建模方法论
典型的数据仓库建模方法论有:ER 模型维度模型Anchor 模型Data Vault 模型原创 2022-08-07 23:59:29 · 854 阅读 · 0 评论 -
DataFlow 模型是什么?
前言本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见100个问题搞定大数据理论体系正文WHY无界、无序、全球规模的数据集在日常业务中越来越常见(例如网络日志、移动使用统计和传感器网络)。与此同时,这些数据集的消费者已经进化出复杂的要求,例如事件时间排序和按数据本身的特征进行窗口,此外,他们贪得无厌地渴望更快的答案。与此同时,实用性要求人们永远无法在正确性、延迟和成本的所有维度上进行完全优原创 2022-01-29 20:07:54 · 2545 阅读 · 1 评论 -
用最诙谐的语言提升你对大数据的认知
引子小明又来了~小明接过大明给的考卷:想转行大数据?这66个问题你搞懂了没? (juejin.cn)看到第一题:1. 你能谈谈你对大数据的认知吗?大数据到底是什么?“我要是知道什么是大数据,我还担心转行干嘛,直接就干啊!”“算了,还是猜吧”“怎么突然想到了一句歌词。。草,又走神了”小明答到:大数据应该就是很大的数据吧。。大明看到这里:“就这?”小明苦笑:“还能咋滴?我一个搞Java后端的,大数据也是从手机电视上知道的,只能这么猜啊。。”大明看了小明半晌,叹了口气原创 2021-07-24 00:33:51 · 1488 阅读 · 0 评论 -
想转行大数据?这66个问题你搞懂了没?
引子小明是一个工作经验 3 年的 Java 后端程序员,前段时间刷头条看到下面一条新闻:“十四五”规划和2035年远景目标纲要全文来了!粗略一看,小明感觉这是切合所有中国人的大新闻啦!于是准备仔细的研究一哈~ 小明作为一个程序猿,很关心规划里面有没有哪些部分涉及到了计算机软件的。通读完全文之后,小明发现里面提到了几个关键字人工智能大数据云计算区块链网络安全小明心想:“这可比我单纯的搞 Java 后端有钱景的多啊!”“但是我现在已经搞了几年的 Java 后端了,还能不能转行去原创 2021-07-24 00:32:35 · 1161 阅读 · 6 评论 -
数据库领域的未来发展趋势是怎样的?
写在前面本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见100个问题搞定大数据理论体系解答目前,数据库领域有几大核心发展趋势,云原生和分布式技术的融合,大数据与数据库一体化,包括HTAP以及离在线一体化;智能化技术深度融合,即自感知+自决策+自恢复+自优化;Multi-Model多模;软硬件一体化,充分发挥新硬件的优势;安全可信技术,即可验证日志、数据隐私保护与安全多方计算+全链路加密。关原创 2021-07-07 21:19:56 · 13992 阅读 · 26 评论 -
什么是云原生数据库?
写在前面本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见100个问题搞定大数据理论体系解答云原生数据库即「Cloud-Native Database Systems」。在传统数据库的系统架构下,必须是紧耦合的设计方式,才能最大效能地发挥系统的优势。传统扩容过程非常漫长,而业务高峰过后缩容也很痛苦,往往会造成极大的资源浪费,也很难应对业务层需要的快速变化能力,这是传统架构非常大的弊端之一。「原创 2021-07-07 21:17:41 · 12155 阅读 · 27 评论 -
为什么要有消息队列/消息引擎系统?
写在前面本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和文献引用请见100个问题搞定大数据理论体系解答解耦允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。冗余消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险。许多消息队列所采用的"插入-获取-删除"范式中,在把一个消息从队列中删除之前,需要你的处理系统明确的指出该消息已经被处理完毕,从而确保你的数原创 2021-07-05 22:13:17 · 10227 阅读 · 19 评论 -
为什么需要工作流调度系统?
写在前面本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和文献引用请见100个问题搞定大数据理论体系解答为什么需要工作流调度系统?一个典型的大数据业务场景如下:某个业务系统每天产生 100G 原始数据,我们每天都要对其进行处理,处理步骤如下通过 Hadoop 先将原始数据同步到 HDFS 上。借助 MapReduce 计算框架对原始数据进行转换,生成的数据以分区表的形式存储到多张 Hive 表中。原创 2021-07-05 22:02:31 · 10289 阅读 · 15 评论 -
一篇文章搞懂 RAID 技术是什么
前言本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见100个问题搞定大数据理论体系解答RAID(独立磁盘冗余阵列)技术是将多块普通磁盘组成一个阵列,共同对外提供服务。主要是为了改善磁盘的存储容量、读写速度,增强磁盘的可用性和容错能力。补充RAID技术的发展历程在 RAID 之前,要使用大容量、高可用、高速访问的存储系统需要专门的存储设备,这类设备价格要比 RAID 的几块普通磁盘贵几原创 2021-06-03 21:36:47 · 12529 阅读 · 24 评论 -
企业数据湖面临哪些挑战?
写在前面本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和文献引用请见100个问题搞定大数据理论体系解答1挑战如果读者正在使用免费的开源技术来构建数据湖,那么跟上这些技术发展的步伐可能是一项颇具挑战性和艰巨性的任务。措施如果业务方积极采用数据湖,可考虑使用如 Cloudera、 Hortonworks等商业产品2挑战如果为达到预期的结构,数据湖使用了大量的技术,那么跟上这些技术及其依赖的其他技原创 2021-05-09 22:37:33 · 11228 阅读 · 28 评论 -
如何将Lambda架构应用到数据湖?数据湖中的功能模块有哪些?
写在前面本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和文献引用请见100个问题搞定大数据理论体系解答Lambda架构作为一种模式,提供了在大型数据集上执行高度可伸缩和高性能分布式计算的方法,并且最终为批处理和近实时处理提供了一致的数据。Lambda架构定义了能应对企业中各种数据负载的可水平扩展架构的实现方法与手段,并且具有较低的延迟预期。Lambda架构模式的实现方式是将整个架构划分为多个功能模块/原创 2021-05-09 00:15:29 · 21000 阅读 · 37 评论 -
什么是Kappa架构?
写在前面本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和文献引用请见100个问题搞定大数据理论体系解答Kappa架构和Lambda架构有着或多或少的相似之处,只是出于简化考虑,去掉了批处理层,只保留了快速处理层。其主要思想是避免从头开始进行批处理层计算,尝试把这些计算完全放在实时计算或快速处理层。Lambda架构的一个缺点是必须编码并运行同样的逻辑两次,但Kappa架构避免了这个问题。Kappa架构原创 2021-05-07 23:58:51 · 15184 阅读 · 25 评论 -
什么是Lambda架构?
写在前面本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和文献引用请见100个问题搞定大数据理论体系解答1. Lambda架构定义了一套面向大数据应用的模式和准则。更重要的是,它允许同时查询历史数据和实时新增的数据,并且获得期望的分析视图。2. 处理历史数据(批处理)和实时数据。3. 技术无关和通用性。Lambda架构是一种通用的模式,完全不依赖于任何技术,而且任何技术只要能满足需求,都可以在 Lamb原创 2021-05-07 23:58:08 · 15463 阅读 · 25 评论 -
数据仓库、数据集市和数据湖有什么区别?
写在前面本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和文献引用请见100个问题搞定大数据理论体系解答1. 数据仓库只能对结构化数据进行处理,而且这些数据必须与数据仓库事先定义的模型吻合。处理结构化数据,将它们或者转化为多维数据,或者转换为报表,以满足后续的高级报表及数据分析需求。数据仓库通常用于存储和维护长期数据,因此数据可以按需访问。2. 数据集市一般是满足某一类功能需求的数据仓库的简单模式原创 2021-05-07 23:57:32 · 12974 阅读 · 6 评论 -
数据湖中数据的生命周期是怎样的?
写在前面本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和文献引用请见100个问题搞定大数据理论体系解答数据湖中数据生命周期可分为四个阶段:1. 数据获取:数据可能以不同形式存在,可能需要不同的机制来获取;它们尽量获取最原始的数据,数据在获取过程中成为数据湖的一部分2. 数据处理:获取到的数据需要进一步进行处理,从而得到有用的信息,如商品推荐、业务洞察力等,此时可能会用到机器学习技术;数据可能会被转化为原创 2021-05-07 23:56:35 · 12234 阅读 · 0 评论 -
什么是数据湖?为什么需要数据湖?
写在前面本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和文献引用请见100个问题搞定大数据理论体系解答数据湖是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。数据湖从企业的多个数据源获取原始数据,并且针对不同的目的,同一份原始数据还可能有多种满足特定内部模型格式的数据副本。因此,数据湖中被处理的数据可能是任意类型的信息,从结构化数据到完全非结构化数据。企业对数据原创 2021-05-07 23:55:31 · 27824 阅读 · 25 评论 -
什么是企业数据?
写在前面本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和文献引用请见100个问题搞定大数据理论体系解答企业数据指的是企业内部员工及其合作伙伴跨越不同部门、不同地点而共享,跨越不同大洲而传播的数据。补充企业数据和数据湖的相关性企业数据对企业具有很高的价值,包括财务数据、业务数据、员工个人数据等,企业花费了大量时间和金钱来保证数据在各方面的安全和质量。然而,所谓的企业数据从当前状态变得日渐陈旧,虽然原创 2021-05-07 23:54:29 · 15054 阅读 · 27 评论 -
大数据开发主要做什么?
写在前面本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和文献引用请见100个问题搞定大数据理论体系解答一个大数据平台架构通常如图所示,大数据开发涵盖了图中从下到上各层的实现,其中主要的部分是采集层、储存层、计算层、模型层和接口层,核心部分是储存层和计算层。各层中功能模块的技术实现会根据实际业务场景不同而有所变化,但仍然是围绕着储存数据和数值计算这两大核心功能来进行的。因此,大数据开发的作用主要集中在以原创 2021-05-07 23:51:43 · 24384 阅读 · 26 评论 -
什么是 ETL ?什么是 ELT ?
写在前面本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和文献引用请见100个问题搞定大数据理论体系解答ETL,是英文Extract-Transform-Load的缩写,用来描述将业务系统的数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL的目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。...原创 2021-05-05 13:13:21 · 14067 阅读 · 21 评论 -
数据质量如何评测?
写在前面本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和文献引用请见100个问题搞定大数据理论体系解答数据质量是基于对数据的评估,来确定它是否与预想的应用场景相匹配。数据质量的评测基于多个维度的属性。下面是其中比较重要的部分属性: 1. 正确性/准确性(correctness/accuracy): 表征了收集的数据所能描述客观世界的真实程度。2. 完整性(completeness): 通过统计获原创 2021-05-05 13:12:12 · 13696 阅读 · 23 评论 -
大数据和人工智能有什么关系?
本文详解了大数据和人工智能之间的区别,同时简单的介绍了人工智能和机器学习原创 2021-05-05 13:10:34 · 15924 阅读 · 12 评论 -
大数据和云计算有什么关系?
本文详解了大数据和云计算之间的区别,同时简单的介绍了云计算的概念。原创 2021-05-05 13:09:22 · 25434 阅读 · 22 评论