大数据技术
文章平均质量分 92
小爱玄策
喜欢技术,热爱分享,持续进步。
展开
-
大数据生态体系产品(3) - HBase的架构与高性能存储
Google发表GFS、MapReduce、BigTable三篇论文,号称“三驾马车”,开启了大数据的时代。本文介绍BigTable对应的NoSQL系统HBase,对大规模海量数据的处理。原创 2022-05-26 18:09:31 · 511 阅读 · 0 评论 -
大数据生态体系产品(2) - Spark的架构与原理
Spark在2012年左右开始流行,那时内存的容量提升和成本降低已经比MapReduce出现的十年前强了一个数量级,Spark优先使用内存的条件已经成熟;其次,使用大数据进行机器学习的需求越来越强烈,不再是早先年那种数据分析的简单计算需求。而机器学习的算法大多需要很多轮迭代,Spark的stage划分相比Map和Reduce的简单划分,有更加友好的编程体验和更高效的执行效率。原创 2022-05-23 19:47:31 · 565 阅读 · 0 评论 -
大数据生态体系产品(1) - Hive的架构与执行过程
用 MapReduce 实现 SQL 数据分析,对 Hive 进行基础介绍。原创 2022-05-22 17:18:14 · 261 阅读 · 0 评论 -
Hadoop大数据原理(4) - 资源调度框架Yarn
主要介绍Yarn的诞生架构和工作流程。原创 2022-05-16 22:26:22 · 330 阅读 · 0 评论 -
Hadoop大数据原理(3) - 分布式计算框架MapReduce
Hadoop出现前就已经有了分布式计算,那个时候的分布式计算是专用的系统,只能专门处理某一类计算,比如进行大规模数据的排序。这样的系统无法复用到其他的大数据计算场景,每种应用都需要开发与维护专门的系统,通用性不够。直到Hadoop MapReduce的出现,使得大数据计算通用编程成为可能。我们只要遵循MapReduce编程模型,只需投入经历编写业务处理的逻辑代码,就可以运行在Hadoop分布式集群上,无需关心分布式计算是如何完成的。原创 2022-05-12 22:42:35 · 794 阅读 · 0 评论 -
Hadoop大数据原理(2) - 分布式文件系统HDFS
在计算机领域,提高算力和数据存储能力有2种思路,一种是升级计算机,也就是我们说的垂直伸缩,包括升级CPU、内存、磁盘等将1台计算机变得更强大,另外一种就是用分布式文件系统,称为水平伸缩,添加更多的计算机到系统中来提高算力。,互联网公司现在都水平伸缩的道路,这就是近十年引导技术潮流的分布式与大数据技术。实际上,将RADI的思想原理应用到分布式集群中,就形成了Hadoop分布式文件系统HDFS的架构思想。原创 2022-05-12 18:12:03 · 510 阅读 · 0 评论 -
Hadoop大数据原理(1) - 架构演进
两台计算机要想合作构成一个系统,必须重新进行架构设计。就是现在互联网企业广泛使用的:负载均衡、分布式缓存、分布式数据库、分布式服务等各种分布式系统。当这些分布式技术满足互联网的日常业务需求时,对离线数据和存量数据的处理就被提了出来,当时这些分布式技术并不能满足要求,于是大数据技术就出现了。大数据技术更为关注数据,所以相关的架构设计也围绕数据展开,如何存储、计算、传输大规模的数据是要考虑的核心要素。原创 2022-05-11 22:05:29 · 1005 阅读 · 1 评论 -
大数据技术发展简史
学习大数据技术,应该去了解它发展的来龙去脉,为何会有新技术的出现,相比老的技术有什么样的进步。事物发展有自己的潮流和规律,当你身处潮流之中的时候,要紧紧抓住潮流的机会,想办法脱颖而出,即使没有成功,也会更加洞悉时代的脉搏,收获珍贵的知识和经验。原创 2022-05-04 22:06:18 · 3509 阅读 · 0 评论 -
大数据基础(5) - Raft协议
Raft一致性协议的主要目标有2个,1是可理解性,2是系统的可实现性。Raft对于每个技术细节都有清晰的界定和描述,这也便于更加明确的进行系统的实现。原创 2022-04-19 18:19:29 · 474 阅读 · 0 评论 -
大数据基础(4) - Paxos协议
Paxos算法是基于消息传递且具有高度容错特性的一致性算法,是目前公认的解决分布式一致性问题最有效的算法之一。Google Chubby的作者Mike Burrows说过:“所有一致性协议本质上要么是Paxos,要么是其变体”。原创 2022-04-14 18:06:05 · 1061 阅读 · 0 评论 -
大数据基础(3) - 常见的一致性协议
主要介绍分布式系统中常见的一些一致性协议,了解这些协议对于理解分布式系统的设计思路有很大的帮助。原创 2022-04-06 10:12:19 · 1176 阅读 · 1 评论 -
大数据基础(2) - 复制数据与一致性
本节介绍数据复制带来的一致性问题和解决方案。先介绍集成理论模型:CAP、ACID、BASE,再介绍几种典型的副本数据更新策略。原创 2022-03-31 20:11:07 · 517 阅读 · 0 评论 -
大数据基础理论(1) - 数据分片与路由
目前主流的大数据存储与计算系统通常采用的是横向扩展方式来支持系统的可扩展性,对于待存储处理的海量数据,需要通过数据分片来将数据进行切分到并分配到机器中,数据分片后,需要通过数据路由找到存储的对应位置。原创 2022-03-11 18:25:34 · 1181 阅读 · 0 评论