- 博客(7982)
- 资源 (9)
- 收藏
- 关注
原创 如何区分批处理还是流处理?
你好,我是程序员贵哥。今天,我将会带领你一起学习在进行大规模数据处理时,无论如何也绕不开的两个处理模式:批处理(Batching Processing)和流处理(Streaming Processing)。在我看来,大规模的视频流系统、大规模物联网(IoT)数据监控系统等各种现代大规模数据系统的出现,已经成为了一种必然的历史潮流。无论你是在从事哪一种开发方向,都不可避免地要与这些海量数据打交道。如何能既满足实际应用场景的需求,又高效地处理好大规模数据,在整个项目开发架构中都是非常重要的一个环节。
2025-12-09 11:02:12
592
原创 分布式系统(上):学会用服务等级协议SLA来评估你的系统
你好,我是程序员贵哥。从今天开始,我们进入专栏的第二模块。通过这一模块的学习,带你一起夯实大规模数据处理的基础。首先,我将结合硅谷顶尖科技公司的(Best Practice) ,和你一起分享在设计分布式系统架构时,我们有可能会碰到哪些雷区?又有哪些必备的基础知识?在硅谷一线大厂所维护的系统服务中,我们经常可以看见SLA这样的承诺。例如,在谷歌的云计算服务平台Google Cloud Platform中,他们会写着“99.9% Availability”这样的承诺。
2025-12-09 10:44:01
762
原创 大规模数据处理初体验:怎样实现大型电商热销榜?
你好,我是程序员贵哥。今天我要与你分享的主题是“怎样实现大型电商热销榜”。我在Google面试过很多优秀的候选人,应对普通的编程问题coding能力很强,算法数据结构也应用得不错。可是当我追问数据规模变大时该怎么设计系统,他们却说不出所以然来。这说明他们缺乏必备的规模增长的技术思维(mindset of scaling)。这会限制这些候选人的职业成长。因为产品从1万用户到1亿用户,技术团队从10个人到1000个人,你的技术规模和数据规模都会完全不一样。
2025-12-09 10:35:12
635
原创 MapReduce后谁主沉浮:怎样设计下一代数据处理技术?
你好,我是程序员贵哥。在上一讲中,我们介绍了2014年之前的大数据历史,也就是MapReduce作为数据处理的默认标准的时代。重点探讨了MapReduce面对日益复杂的业务逻辑时表现出的不足之处,那就是:1. 维护成本高;2. 时间性能不足。同时,我们也提到了2008年诞生在Google西雅图研发中心的FlumeJava,它成为了Google内部的数据处理新宠。那么,为什么是它扛起了继任MapReduce的大旗呢?今天这一讲,我不展开讲任何具体技术。
2025-12-09 10:24:38
990
原创 为什么MapReduce会被硅谷一线公司淘汰?
你好,我是程序员贵哥。今天我要与你分享的主题是“为什么MapReduce会被硅谷一线公司淘汰”。我有幸几次与来Google参观的同行进行交流,当谈起数据处理技术时,他们总是试图打探MapReduce方面的经验。这一点让我颇感惊讶,因为在硅谷,早已没有人去谈论MapReduce了。今天这一讲,我们就来聊聊为什么MapReduce会被硅谷一线公司淘汰。我们先来沿着时间线看一下超大规模数据处理的重要技术以及它们产生的年代。
2025-12-09 10:16:08
873
原创 模块答疑:软件工程师如何进入人工智能领域?
你好,我是程序员贵哥。在大数据算法模块,我们一起学习了几种最常用的大数据算法,包括KNN分类算法、贝叶斯分类算法、PageRank网页排名算法、关联分析Apriori算法、聚类分析K-means算法、神经网络算法以及几种常见的推荐算法,算是对大数据算法有了初步了解。作为软件工程师,如果想掌握一些大数据算法的背景知识,以便更好地和算法相关团队合作,那么以这个模块讨论的算法为基础,触类旁通,针对公司使用的算法再进一步了解和学习,基本上也就够用了。
2025-12-08 16:57:44
862
原创 从感知机到神经网络算法
从机器学习模型角度看,目前最简单的机器学习模型大概就是感知机了,而最火热的机器学习模型则是神经网络。人工智能领域几乎所有炫酷的东西都是神经网络的成果,有下赢人类最顶尖围棋棋手的AlphaGo、自动驾驶技术、聊天机器人、语音识别与自动翻译等。事实上,神经网络和感知机是一脉相承的,就像复杂的人体是由一个个细胞组成、复杂的大脑是由一个个神经元组成,而神经网络正是由感知机组成的。
2025-12-08 16:56:47
960
原创 机器学习的数学原理是什么?
最近几年,人工智能(AI)的风头俨然已经盖过大数据,成为各大互联网公司争相追捧的新“风口”。但当我们谈论人工智能时我们到底在谈什么?人工智能跟机器学习有什么关系?跟大数据又有什么关系?“高大上”的机器学习背后的数学原理是什么?所谓的人工智能,在技术层面很多时候就是指机器学习,通过选择特定的算法对样本数据进行计算,获得一个计算模型,并利用这个模型,对以前未曾见过的数据进行预测。如果这个预测在一定程度上和事实相符,我们就认为机器像人一样具有某种智能,即人工智能。
2025-12-08 16:55:38
973
原创 如何预测用户的喜好?
在用户对自己需求相对明确的时候,可以用搜索引擎通过关键字搜索很方便地找到自己需要的信息。但有些时候,搜索引擎并不能完全满足用户对信息发现的需求。一方面,用户有时候其实对自己的需求并不明确,期望系统能主动推荐一些自己感兴趣的内容或商品;另一方面,企业也希望能够通过更多渠道向用户推荐信息和商品,在改善用户体验的同时,提高成交转化率,获得更多营收。而这中间发现用户兴趣和喜好的就是推荐引擎。在豆瓣中打开电影《肖申克的救赎》的页面,你会发现这个页面还会推荐一些其他电影。
2025-12-08 16:54:20
833
原创 如何发掘数据之间的关系?
通过上一个模块“大数据分析与运营”的学习,我们知道数据之中蕴藏着关系,如果数据量足够大,这种关系越逼近真实世界的客观规律。在我们的工作和生活中你会发现,网页之间的链接关系蕴藏着网页的重要性排序关系,购物车的商品清单蕴藏着商品的关联关系,通过对这些关系的挖掘,可以帮助我们更清晰地了解客观世界的规律,并利用规律提高生产效率,进一步改造我们的世界。挖掘数据的典型应用场景有搜索排序、关联分析以及聚类,下面我们一个一个来看,希望通过今天的学习,你能够了解数据挖掘典型场景及其应用的算法。
2025-12-08 16:52:47
1382
原创 - 如何对数据进行分类和预测?
今天我们进入专栏的最后一个模块,补全大数据知识体系最后一块拼图,一起来学习大数据算法。大数据越来越多的和人工智能关联起来,所谓人工智能就是利用数学统计方法,统计数据中的规律,然后利用这些统计规律进行自动化数据处理,使计算机表现出某种智能的特性,而各种数学统计方法,就是大数据算法。关于专栏算法模块的设置,我会围绕数据分类、数据挖掘、推荐引擎、大数据算法的数学原理、神经网络算法几个方面,为你展开大数据算法的“全景图”。分类是人们认知事物的重要手段,如果你能将某个事物分类得足够细,你实际上就已经认知了这个事物。
2025-12-08 16:51:29
841
原创 如何利用大数据成为“增长黑客”?
增长黑客是近几年颇为流行的一个词汇,它是指利用数据、技术、产品等一系列手段为互联网产品获得快速用户增长的人。互联网的访问没有边界,用户量的增加对应成本的增加也几乎可以忽略不计,所以如何快速、大规模获取用户是互联网产品的成功之道,我们所熟知的成功的互联网公司,例如国内的BAT、国外的FLAG,都拥有数亿甚至数十亿的用户。你有没有曾经幻想过“如果全国人民每人给我一块钱,我就成了亿万富翁”?事实上,这种想法并不天真,在互联网时代,你只要让全国人民都知道你,你肯定就能成为亿万富翁。
2025-12-08 16:47:16
871
原创 A-B测试与灰度发布必知必会
在网站和App的产品设计中,经常会遇到关于哪种产品设计方案更优的思考和讨论:按钮大一点好还是小一点好;页面复杂一点好还是简单一点好;这种蓝色好还是另一种蓝色好;新的推荐算法是不是真的效果好…这种讨论会出现在运营人员和产品经理之间,也会出现在产品经理和工程师之间,有时候甚至会出现在公司最高层,成为公司生死存亡的战略决策。
2025-12-08 16:45:53
765
原创 一个电商网站订单下降的数据分析案例
企业运营的数据可以让管理者、运营人员、技术人员全面、快速了解企业的各项业务运行的状况,并发现公司可能出现的经营问题,进而能通过这些指标进行详细分析,最后定位问题的原因,并找到解决的办法。今天我们一起通过一个案例,来看看如何通过数据分析追踪并解决问题。
2025-12-08 16:41:06
1047
原创 模块答疑:为什么大数据平台至关重要?
这当然会有难度,学习过程中也会有挫折感,但是我依然希望你能坚持学习,即使有些技术不能完全掌握,但是至少可以让你的视野达到一个更高的高度,去感受架构师如何思考架构设计,并可以把收获应用到未来的学习工作中,让自己有不断进步的目标和动力。大数据平台将互联网应用和大数据产品整合起来,构建成一个完整的系统,将实时数据和离线数据打通,使数据可以实现更大规模的关联计算,挖掘出数据更大的价值,从而实现数据驱动业务,通过数据统计发现业务规律(也就是机器学习模型)。软件架构师,顾名思义,就是从事软件架构设计的那个人。
2025-12-08 16:36:45
973
原创 当大数据遇上物联网
某位互联网大佬说过,未来20年最有发展潜力的三项技术分别是:区块链、人工智能、物联网。关于区块链,现在可能是最有争议也是最迷茫的时候;关于人工智能的价值,我们已经达成共识并稳步发展;而真正完成早期探索、处于突破临界点的可能就是物联网了。物联网确实也能给我们足够的想象空间:万物互联,所有的一切设备都是智能的,它们通过互相通信,彼此联系;而人们也可以通过云端的应用掌控一切,就像科幻电影描述的那样。最关键的是,相比人工智能和区块链还在进行技术探索,物联网的技术已经成熟,只待“临门一脚”了。
2025-12-08 16:34:15
850
原创 盘点可供中小企业参考的商业大数据平台
专栏前面我讲了,稍具规模的互联网企业都会搭建自己的大数据平台。但是有同学会问,对于更多的中小企业和初创公司而言,自己搭建大数据平台的成本是不是有点高。确实,拿一个开源的软件搭建自己的大数据平台,对于中小企业来说,无论是人才储备还是服务器成本,似乎都有点难以承受。所幸,还有商业大数据平台可供选择。今天我就来和你盘点一下可供中小企业参考的商业大数据平台。
2025-12-08 16:32:15
703
原创 知名大厂如何搭建大数据平台?
专栏第26期,我介绍了一个常规的大数据平台架构方案,这种架构方案是基于大数据平台Lamda架构进行设计的。事实上,业界也基本是按照这种架构模型搭建自己的大数据平台。今天我们来看一下淘宝、美团和滴滴的大数据平台,一方面进一步学习大厂大数据平台的架构,另一方面也学习大厂的工程师如何画架构图。通过大厂的这些架构图,你就会发现,不但这些知名大厂的大数据平台设计方案大同小异,架构图的画法也有套路可以寻觅。
2025-12-08 16:25:36
514
原创 大数据从哪里来?
大数据就是存储、计算、应用大数据的技术,如果没有数据,所谓大数据就是无源之水、无本之木,所有技术和应用也都无从谈起。可以说,数据在大数据的整个生态体系里面拥有核心的、最无可代替的地位。很多从事机器学习和人工智能的高校学者选择加入互联网企业,并不是贪图企业给的高薪,而是因为只有互联网企业才有他们做研究需要用到的大量数据。技术是通用的,算法是公开的,只有数据需要自己去采集。因此数据采集是大数据平台的核心功能之一,也是大数据的来源。
2025-12-08 16:23:08
1293
原创 - 互联网产品 + 大数据产品 = 大数据平台
从今天开始,我们进入专栏的“大数据平台与系统集成”模块。前面我讲了各种大数据技术的原理与架构,大数据计算通过将可执行的代码分发到大规模的服务器集群上进行分布式计算,以处理大规模的数据,即所谓的移动计算比移动数据更划算。但是在分布式系统中分发执行代码并启动执行,这样的计算方式必然不会很快,即使在一个规模不太大的数据集上进行一次简单计算,MapReduce也可能需要几分钟,Spark快一点,也至少需要数秒的时间。
2025-12-08 16:21:25
887
原创 模块答疑:我能从大厂的大数据开发实践中学到什么?
我在参与Spark开发的时候,跟Databricks、Cloudera的工程师交流,这些人可能是大数据技术领域最顶级的工程师,跟他们交流收获最深刻的不是技术,而是对他们技术水平的判断,以及进而对自己技术水平的判断,并因此促使自己思考自己未来的技术发展之路与人生之路。这些年,我在各种不同的公司工作过,在几个人的小作坊开发过只有几个人使用的所谓ERP系统,也在所谓的大厂参与过全球顶级的大数据系统的开发,据我所见,优秀的人哪里都有,大厂里优秀工程师更多一些,但是小作坊里有时候也卧虎藏龙。
2025-12-08 16:19:46
775
原创 从大数据性能测试工具Dew看如何快速开发大数据系统
我们在这一期中,通过对大量的Spark服务器的性能数据进行可视化分析,发现了Spark在程序代码和运行环境中的各种性能问题,并做了相应优化,使Spark运行效率得到了极大提升。很多同学也在问,这些可视化的性能数据从何而来呢?如何在图中将性能指标和任务进度结合起来,可以一目了然看清应用在不同运行阶段的资源使用状况呢?事实上,当时为了进行Spark性能优化,我和团队小伙伴们开发了一个专门的大数据性能测试工具。
2025-12-08 16:15:20
748
原创 大数据基准测试可以带来什么好处?
2012年的时候,Hadoop已经日趋成熟,Intel的大数据团队也正准备寻找新的技术研究方向。当时,我们对比测试了多个新出来的大数据技术产品,最终选择了Spark重点跟进参与。现在看来,这是一个明智的决定,作出这个决定是基于大数据基准测试,而使用的对比测试工具就是我今天要讲的大数据基准测试工具HiBench。大数据作为一个生态体系,不但有各种直接进行大数据处理的平台和框架,比如HDFS、MapReduce、Spark,还有很多周边的支撑工具,而大数据基准测试工具就是其中一个大类。
2025-12-08 16:12:59
798
原创 从阿里内部产品看海量数据处理系统的设计(下):架构与创新
上一期,Doris提出了目前阿里巴巴海量KV存储方面的问题,给出了Doris的业务价值、设计目标和技术指标。但是Doris项目组还必须证明自己有已经经过论证的架构技术方案,可以实现前面设定的目标,立项后可以迅速启动执行,不需要再去摸索尝试,风险可以把控。因此,PPT后面的内容主要就是阐述Doris的架构方案和创新设计。Doris是一种支持Key、Value数据结构的分布式存储系统,核心要解决的问题是分布式路由、分布式集群伸缩、分布式数据冗余与失效转移。
2025-12-08 16:11:33
761
原创 从阿里内部产品看海量数据处理系统的设计(上):Doris的立项
也不能太高,如果设定太高,过度承诺,让老板、用户对你未来交付的产品抱有太高的期望,将来稍有不慎,无法达到期望,不但对产品的发展造成不良影响,甚至大家对你的人品都会产生怀疑。就像你做的东西将来也一定会有问题,因为现在的产品在将来一定会落伍,但那已经不再是你的问题。另一方面,对工程师而言,业务产品的开发技术难度相对较低,如果要想更快提高自己的技术水平,去开发基础技术产品更能得到提升和锻炼,所以优秀的工程师更愿意去开发有难度有挑战的创新性基础技术产品,而不是去开发那些千篇一律的业务产品。有没有现成的解决方案?
2025-12-08 16:08:50
710
原创 Spark的性能优化案例分析(下)
上一期,我讲了软件性能优化必须经过进行性能测试,并在了解软件架构和技术的基础上进行。今天,我们通过几个Spark性能优化的案例,看一看所讲的性能优化原则如何落地。如果你忘记了性能优化的原则,可以返回上一期复习一下。基于软件性能优化原则和Spark的特点,Spark性能优化可以分解为下面几步。1.性能测试,观察Spark性能特性和资源(CPU、Memory、Disk、Net)利用情况。2.分析、寻找资源瓶颈。3.分析系统架构、代码,发现资源利用关键所在,思考优化策略。
2025-12-08 16:04:10
800
原创 Spark的性能优化案例分析
我们知道,现在最主流的大数据技术几乎都是开源的产品,不管是Hadoop这样的大数据存储与计算产品,还是Hive、Spark SQL这样的大数据仓库,又或者Storm、Flink这样的大数据流计算产品,还有Mahout、MLlib这样的大数据机器学习算法库,它们都来自开源社区。所以,我们在使用大数据、学习大数据的过程中肯定少不了要和开源社区打交道。
2025-12-08 16:00:08
769
原创 如何自己开发一个大数据SQL引擎?
她说:我想一下,然后盯着桌子看了两三秒的时间,就开始回答,基本跟Hive的实现机制一样。红框内的组件我们重新开发过,浅蓝色的是我们使用的一个开源的SQL语法解析器,将标准SQL解析成标准SQL抽象语法树(SQL AST),后面深蓝色的就是团队自己开发的SQL抽象语法树分析与转换器,将SQL AST转换成Hive AST。今天我讲的是一个SQL引擎是如何设计出来的,也许在你的工作几乎不可能去开发SQL引擎,但是了解这些基础的知识,了解一些设计的技巧,对你用好数据库,开发更加灵活、有弹性的系统也会很有帮助。
2025-12-08 15:54:23
1054
原创 ZooKeeper是如何保证数据一致性的?
你可能还记得,我们在讲HDFS和HBase架构分析时都提到了ZooKeeper。在分布式系统里的多台服务器要对数据状态达成一致,其实是一件很有难度和挑战的事情,因为服务器集群环境的软硬件故障随时会发生,多台服务器对一个数据的记录保持一致,需要一些技巧和设计。这也就是我们今天要讨论的分布式系统一致性与ZooKeeper的架构。在讲分布式系统一致性前,我们先回顾一下HDFS。HDFS为了保证整个集群的高可用,需要部署两台NameNode服务器,一台作为主服务器,一台作为从服务器。
2025-12-08 15:07:10
617
原创 流式计算的代表:Storm、Flink、Spark Streaming
我前面介绍的大数据技术主要是处理、计算存储介质上的大规模数据,这类计算也叫大数据批处理计算。顾名思义,数据是以批为单位进行计算,比如一天的访问日志、历史上所有的订单数据等。这些数据通常通过HDFS存储在磁盘上,使用MapReduce或者Spark这样的批处理大数据计算框架进行计算,一般完成一次计算需要花费几分钟到几小时的时间。此外,还有一种大数据技术,针对实时产生的大规模数据进行即时计算处理,我们比较熟悉的有摄像头采集的实时视频数据、淘宝实时产生的订单数据等。
2025-12-08 15:01:48
988
原创 BigTable的开源实现:HBase
我们知道,Google发表GFS、MapReduce、BigTable三篇论文,号称“三驾马车”,开启了大数据的时代。那和这“三驾马车”对应的有哪些开源产品呢?我们前面已经讲过了GFS对应的Hadoop分布式文件系统HDFS,以及MapReduce对应的Hadoop分布式计算框架MapReduce,今天我们就来领略一下BigTable对应的NoSQL系统HBase,看看它是如何大规模处理海量数据的。
2025-12-08 11:55:34
541
原创 同样的本质,为何Spark可以更高效?
上一期我们讨论了Spark的编程模型,这期我们聊聊Spark的架构原理。和MapReduce一样,。但是和MapReduce僵化的Map与Reduce分阶段计算相比,Spark的计算框架更加富有弹性和灵活性,进而有更好的运行性能。
2025-12-08 11:28:27
579
原创 我们并没有觉得MapReduce速度慢,直到Spark出现
当然Spark也有自己的生态体系,以Spark为基础,有支持SQL语句的Spark SQL,有支持流计算的Spark Streaming,有支持机器学习的MLlib,还有支持图计算的GraphX。要知道大众提出的需求虽然也无法触及问题的核心,但是好歹是有共识的,大家都能接受,按这种需求做出的东西虽然平庸,但是不至于令人厌恶。总之,你需要记住,Spark应用程序代码中的RDD和Spark执行过程中生成的物理RDD不是一一对应的,RDD在Spark里面是一个非常灵活的概念,同时又非常重要,需要认真理解。
2025-12-08 11:15:08
473
原创 Hive是如何让MapReduce实现SQL操作的?
前面我们讲过,MapReduce的出现大大简化了大数据编程的难度,使得大数据计算不再是高不可攀的技术圣殿,普通工程师也能使用MapReduce开发大数据程序。但是对于经常需要进行大数据计算的人,比如从事研究商业智能(BI)的数据分析师来说,他们通常使用SQL进行大数据分析和统计,MapReduce编程还是有一定的门槛。而且如果每次统计和分析都开发相应的MapReduce程序,成本也确实太高了。那么有没有更简单的办法,可以直接将SQL运行在大数据平台上呢?
2025-12-08 11:10:20
264
原创 模块答疑:我们能从Hadoop学到什么?
你好,我是程序员贵哥。最后,我在今天的文章里贴了陈晨、虎虎、您的好友William、lyshrine、不求、Panmax、wmg、西贝木土的留言,我认为是比较精彩很有深度的,也把它们分享给你,希望其他同学的思考也能对你有所启发,也欢迎你给我留言与我一起讨论。还有的时候,你学一样新技术却苦苦不能入门,可能仅仅就是因为你看的文章、书籍本身写得糟糕,或者作者写法跟你的思维方式不对路而已,并不代表这个技术有多难,更不代表你的能力有问题,如果换个方式、换个时间、换篇文章重新再看,可能就豁然开朗了。
2025-12-05 16:37:36
701
原创 为什么我们管Yarn叫作资源调度框架?
所谓高层模块和低层模块的划分,简单说来就是在调用链上,处于前面的是高层,后面的是低层。我们以典型的Java Web应用举例,用户请求在到达服务器以后,最先处理用户请求的是Java Web容器,比如Tomcat、Jetty这些,通过监听80端口,把HTTP二进制流封装成Request对象;然后是Spring MVC框架,把Request对象里的用户参数提取出来,根据请求的URL分发给相应的Model对象处理;再然后就是我们的应用程序,负责处理用户请求,具体来看,还会分成服务层、数据持久层等。
2025-12-05 16:35:04
810
原创 MapReduce如何让数据完成一次旅行?
上一期我们聊到MapReduce编程模型将大数据计算过程切分为Map和Reduce两个阶段,先复习一下,在Map阶段为每个数据块分配一个Map计算任务,然后将所有map输出的Key进行合并,相同的Key及其对应的Value发送给同一个Reduce任务去处理。通过这两个阶段,工程师只需要遵循MapReduce编程模型就可以开发出复杂的大数据计算程序。那么这个程序是如何在分布式集群中运行起来的呢?MapReduce程序又是如何找到相应的数据并进行计算的呢?答案就是需要MapReduce计算框架来完成。
2025-12-05 16:32:37
540
原创 为什么说MapReduce既是编程模型又是计算框架?
在Hadoop问世之前,其实已经有了分布式计算,只是那个时候的分布式计算都是专用的系统,只能专门处理某一类计算,比如进行大规模数据的排序。很显然,这样的系统无法复用到其他的大数据计算场景,每一种应用都需要开发与维护专门的系统。而Hadoop MapReduce的出现,使得大数据计算通用编程成为可能。我们只要遵循MapReduce编程模型编写业务处理逻辑代码,就可以运行在Hadoop分布式集群上,无需关心分布式计算是如何完成的。
2025-12-05 15:58:01
896
原创 新技术层出不穷,HDFS依然是存储的王者
DataNode会通过心跳和NameNode保持通信,如果DataNode超时未发送心跳,NameNode就会认为这个DataNode已经宕机失效,立即查找这个DataNode上存储的数据块有哪些,以及这些数据块还存储在哪些服务器上,随后通知这些服务器再复制一份数据块到其他服务器上,保证HDFS存储的数据块备份数符合用户设置的数目,即使再出现服务器宕机,也不会丢失数据。HDFS为了保证数据的高可用,会将一个数据块复制为多份(缺省情况为3份),并将多份相同的数据块存储在不同的服务器上,甚至不同的机架上。
2025-12-05 15:51:01
588
原创 从RAID看垂直伸缩到水平伸缩的演化
经过前面的预习和上一期我们聊的,大数据技术主要是要解决大规模数据的计算处理问题,但是我们要想对数据进行计算,首先要解决的其实是大规模数据的存储问题。一般情况下,一台服务器上很少出现同时损坏两块磁盘的情况,在只损坏一块磁盘的情况下,如果能利用其他磁盘的数据恢复损坏磁盘的数据,这样在保证可靠性和性能的同时,磁盘利用率也得到大幅提升。可以在数据写入磁盘的时候,将数据分成N-1份,并发写入N-1块磁盘,并在第N块磁盘记录校验数据,这样任何一块磁盘损坏(包括校验数据磁盘),都可以利用其他N-1块磁盘的数据修复。
2025-12-05 15:34:40
458
Linux系统技术可以学习一下
2024-01-26
播为主播提供一站式直播必备工具 包含弹幕助手、屏幕美化、语音播报、弹幕点歌等主播必备核心功能,目前已支持虎牙、斗鱼,抖音等、平台
2023-10-13
TestSyncMethods.java
2021-07-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅