大数据
文章平均质量分 89
大数据
_Rye_
左手代码右手诗
一行代码一行诗
展开
-
40 | 机器学习的数学原理是什么?
最近几年,人工智能(AI)的风头俨然已经盖过大数据,成为各大互联网公司争相追捧的新“风口”。但当我们谈论人工智能时我们到底在谈什么?人工智能跟机器学习有什么关系?跟大数据又有什么关系?“高大上”的机器学习背后的数学原理是什么?所谓的人工智能,在技术层面很多时候就是指机器学习,通过选择特定的算法对样本数据进行计算,获得一个计算模型,并利用这个模型,对以前未曾见过的数据进行预测。如果这个预测在一定程度上和事实相符,我们就认为机器像人一样具有某种智能,即人工智能。原创 2023-11-07 23:40:08 · 90 阅读 · 0 评论 -
39 | 如何预测用户的喜好?
在用户对自己需求相对明确的时候,可以用搜索引擎通过关键字搜索很方便地找到自己需要的信息。但有些时候,搜索引擎并不能完全满足用户对信息发现的需求。一方面,用户有时候其实对自己的需求并不明确,期望系统能主动推荐一些自己感兴趣的内容或商品;另一方面,企业也希望能够通过更多渠道向用户推荐信息和商品,在改善用户体验的同时,提高成交转化率,获得更多营收。而这中间发现用户兴趣和喜好的就是推荐引擎。在豆瓣中打开电影《肖申克的救赎》的页面,你会发现这个页面还会推荐一些其他电影。原创 2023-11-07 23:36:19 · 134 阅读 · 0 评论 -
38 | 如何发掘数据之间的关系?
通过上一个模块“大数据分析与运营”的学习,我们知道数据之中蕴藏着关系,如果数据量足够大,这种关系越逼近真实世界的客观规律。在我们的工作和生活中你会发现,网页之间的链接关系蕴藏着网页的重要性排序关系,购物车的商品清单蕴藏着商品的关联关系,通过对这些关系的挖掘,可以帮助我们更清晰地了解客观世界的规律,并利用规律提高生产效率,进一步改造我们的世界。,下面我们一个一个来看,希望通过今天的学习,你能够了解数据挖掘典型场景及其应用的算法。原创 2023-11-07 23:30:31 · 319 阅读 · 0 评论 -
37 | 如何对数据进行分类和预测?
进入专栏的最后一个模块,补全大数据知识体系最后一块拼图,一起来学习大数据算法。大数据越来越多的和人工智能关联起来,所谓人工智能就是利用数学统计方法,统计数据中的规律,然后利用这些统计规律进行自动化数据处理,使计算机表现出某种智能的特性,而各种数学统计方法,就是大数据算法。关于专栏算法模块的设置,会围绕数据分类、数据挖掘、推荐引擎、大数据算法的数学原理、神经网络算法几个方面,展开大数据算法的“全景图”。分类是人们认知事物的重要手段,如果你能将某个事物分类得足够细,你实际上就已经认知了这个事物。原创 2023-11-07 23:24:13 · 418 阅读 · 0 评论 -
36 | 模块答疑:为什么说数据驱动运营?
我们应该对数据保持敏感与好奇,不断将现实发生的事情与数据关联起来,去思考、去分析,用数据推断出来的结论指导现实的工作,再根据现实的反馈修正自己的方法与思维,顶尖高手就是在这样的训练中不断修炼出来的。相对应的,在阿里巴巴,运营人员拥有核心地位,马云的战略决策和运营指标下达给运营人员,运营人员千方百计通过各种手段,主要是产品和技术手段,完成运营指标,实现公司战略。而在腾讯,公司的发展壮大则主要靠产品取胜,产品经理思考用户体验和产品特性,耐心打磨自己的产品,让用户在使用过程中被产品吸引,扩大产品的市场占有率。原创 2023-11-07 17:26:48 · 42 阅读 · 0 评论 -
35 | 如何利用大数据成为“增长黑客”?
增长黑客是近几年颇为流行的一个词汇,它是指利用数据、技术、产品等一系列手段为互联网产品获得快速用户增长的人。互联网的访问没有边界,用户量的增加对应成本的增加也几乎可以忽略不计,所以如何快速、大规模获取用户是互联网产品的成功之道,我们所熟知的成功的互联网公司,例如国内的 BAT、国外的 FLAG,都拥有数亿甚至数十亿的用户。你有没有曾经幻想过“如果全国人民每人给我一块钱,我就成了亿万富翁”?事实上,这种想法并不天真,在互联网时代,你只要让全国人民都知道你,你肯定就能成为亿万富翁。原创 2023-11-07 15:20:05 · 89 阅读 · 0 评论 -
34 | A/B测试与灰度发布必知必会
在网站和 App 的产品设计中,经常会遇到关于哪种产品设计方案更优的思考和讨论:按钮大一点好还是小一点好;页面复杂一点好还是简单一点好;这种蓝色好还是另一种蓝色好;新的推荐算法是不是真的效果好…这种讨论会出现在运营人员和产品经理之间,也会出现在产品经理和工程师之间,有时候甚至会出现在公司最高层,成为公司生死存亡的战略决策。原创 2023-11-07 14:16:48 · 49 阅读 · 0 评论 -
33 | 一个电商网站订单下降的数据分析案例
企业运营的数据可以让管理者、运营人员、技术人员全面、快速了解企业的各项业务运行的状况,并发现公司可能出现的经营问题,进而能通过这些指标进行详细分析,最后定位问题的原因,并找到解决的办法。今天我们一起通过一个案例,来看看如何通过数据分析追踪并解决问题。原创 2023-11-07 11:27:17 · 103 阅读 · 0 评论 -
32 | 互联网运营数据指标与可视化监控
数据分析是大数据应用的一个主要场景,通过数据分析指标监控企业运营状态,及时调整运营和产品策略,是大数据技术的关键价值之一。互联网企业大数据平台上运行的绝大多数大数据计算都是关于数据分析的,各种统计、关联分析、汇总报告,都需要大数据平台来完成。下面讲一个曾经遇到过的真实案例。老板跟技术部说,我们要加强监控。技术部以为老板对程序运行监控不满意,这也是情理之中,当对技术人员说监控的时候,他们通常理解的监控就是程序运行期监控,包括操作系统监控和应用程序监控。原创 2023-11-07 10:37:00 · 292 阅读 · 0 评论 -
31 | 模块答疑:为什么大数据平台至关重要?
这当然会有难度,学习过程中也会有挫折感,但是依然希望能坚持学习,即使有些技术不能完全掌握,但是至少可以让视野达到一个更高的高度,去感受架构师如何思考架构设计,并可以把收获应用到未来的学习工作中,让自己有不断进步的目标和动力。大数据平台将互联网应用和大数据产品整合起来,构建成一个完整的系统,将实时数据和离线数据打通,使数据可以实现更大规模的关联计算,挖掘出数据更大的价值,从而实现数据驱动业务,通过数据统计发现业务规律(也就是机器学习模型)。所以,大数据平台不但对应用至关重要,对各种大数据技术产品也至关重要。原创 2023-11-07 09:37:22 · 28 阅读 · 0 评论 -
30 | 当大数据遇上物联网
某位互联网大佬说过,未来 20 年最有发展潜力的三项技术分别是:区块链、人工智能、物联网。关于区块链,现在可能是最有争议也是最迷茫的时候;关于人工智能的价值,我们已经达成共识并稳步发展;而真正完成早期探索、处于突破临界点的可能就是物联网了。物联网确实也能给我们足够的想象空间:万物互联,所有的一切设备都是智能的,它们通过互相通信,彼此联系;而人们也可以通过云端的应用掌控一切,就像科幻电影描述的那样。最关键的是,相比人工智能和区块链还在进行技术探索,物联网的技术已经成熟,只待“临门一脚”了。原创 2023-11-07 09:02:11 · 59 阅读 · 0 评论 -
29 | 盘点可供中小企业参考的商业大数据平台
专栏前面讲了,稍具规模的互联网企业都会搭建自己的大数据平台。但是有同学会问,对于更多的中小企业和初创公司而言,自己搭建大数据平台的成本是不是有点高。确实,拿一个开源的软件搭建自己的大数据平台,对于中小企业来说,无论是人才储备还是服务器成本,似乎都有点难以承受。所幸,还有商业大数据平台可供选择。今天就来和你盘点一下可供中小企业参考的商业大数据平台。原创 2023-11-06 20:26:16 · 180 阅读 · 0 评论 -
28 | 知名大厂如何搭建大数据平台?
专栏第 26 期,介绍了一个常规的大数据平台架构方案,这种架构方案是基于大数据平台 Lamda 架构进行设计的。事实上,业界也基本是按照这种架构模型搭建自己的大数据平台。今天我们来看一下淘宝、美团和滴滴的大数据平台,一方面进一步学习大厂大数据平台的架构,另一方面也学习大厂的工程师如何画架构图。通过大厂的这些架构图,你就会发现,不但这些知名大厂的大数据平台设计方案大同小异,架构图的画法也有套路可以寻觅。原创 2023-11-06 20:23:55 · 50 阅读 · 0 评论 -
27 | 大数据从哪里来?
大数据就是存储、计算、应用大数据的技术,如果没有数据,所谓大数据就是无源之水、无本之木,所有技术和应用也都无从谈起。可以说,数据在大数据的整个生态体系里面拥有核心的、最无可代替的地位。很多从事机器学习和人工智能的高校学者选择加入互联网企业,并不是贪图企业给的高薪,而是因为只有互联网企业才有他们做研究需要用到的大量数据。技术是通用的,算法是公开的,只有数据需要自己去采集。因此数据采集是大数据平台的核心功能之一,也是大数据的来源。数据可能来自企业内部,也可能是来自企业外部,原创 2023-11-06 20:22:28 · 652 阅读 · 0 评论 -
26 | 互联网产品 + 大数据产品 = 大数据平台
从今天开始,我们进入专栏的“大数据平台与系统集成”模块。前面讲了各种大数据技术的原理与架构,大数据计算通过将可执行的代码分发到大规模的服务器集群上进行分布式计算,以处理大规模的数据,即所谓的移动计算比移动数据更划算。但是在分布式系统中分发执行代码并启动执行,这样的计算方式必然不会很快,即使在一个规模不太大的数据集上进行一次简单计算,MapReduce 也可能需要几分钟,Spark 快一点,也至少需要数秒的时间。原创 2023-11-06 20:21:18 · 30 阅读 · 0 评论 -
25 | 模块答疑:我能从大厂的大数据开发实践中学到什么?
我在参与 Spark 开发的时候,跟 Databricks、Cloudera 的工程师交流,这些人可能是大数据技术领域最顶级的工程师,跟他们交流收获最深刻的不是技术,而是对他们技术水平的判断,以及进而对自己技术水平的判断,并因此促使自己思考自己未来的技术发展之路与人生之路。这些年,我在各种不同的公司工作过,在几个人的小作坊开发过只有几个人使用的所谓 ERP 系统,也在所谓的大厂参与过全球顶级的大数据系统的开发,据我所见,优秀的人哪里都有,大厂里优秀工程师更多一些,但是小作坊里有时候也卧虎藏龙。原创 2023-11-06 20:17:46 · 25 阅读 · 0 评论 -
24 | 从大数据性能测试工具Dew看如何快速开发大数据系统
我们在Spark 性能优化案例分析这一期中,通过对大量的 Spark 服务器的性能数据进行可视化分析,发现了 Spark 在程序代码和运行环境中的各种性能问题,并做了相应优化,使 Spark 运行效率得到了极大提升。很多同学也在问,这些可视化的性能数据从何而来呢?如何在图中将性能指标和任务进度结合起来,可以一目了然看清应用在不同运行阶段的资源使用状况呢?事实上,当时为了进行 Spark 性能优化,我和团队小伙伴们开发了一个专门的大数据性能测试工具。原创 2023-11-06 19:00:11 · 43 阅读 · 0 评论 -
23 | 大数据基准测试可以带来什么好处?
2012 年的时候,Hadoop 已经日趋成熟,Intel 的大数据团队也正准备寻找新的技术研究方向。当时,我们对比测试了多个新出来的大数据技术产品,最终选择了 Spark 重点跟进参与。现在看来,这是一个明智的决定,作出这个决定是基于大数据基准测试,而使用的对比测试工具就是我今天要讲的大数据基准测试工具 HiBench。大数据作为一个生态体系,不但有各种直接进行大数据处理的平台和框架,比如 HDFS、MapReduce、Spark,还有很多周边的支撑工具,而大数据基准测试工具就是其中一个大类。原创 2023-11-06 17:26:05 · 53 阅读 · 0 评论 -
22 | 从阿里内部产品看海量数据处理系统的设计(下):架构与创新
上一期,Doris 提出了目前阿里巴巴海量 KV 存储方面的问题,给出了 Doris 的业务价值、设计目标和技术指标。但是 Doris 项目组还必须证明自己有已经经过论证的架构技术方案,可以实现前面设定的目标,立项后可以迅速启动执行,不需要再去摸索尝试,风险可以把控。因此,PPT 后面的内容主要就是阐述Doris 的架构方案和创新设计。Doris 是一种支持 Key、Value 数据结构的分布式存储系统,核心要解决的问题是分布式路由、分布式集群伸缩、分布式数据冗余与失效转移。原创 2023-11-06 16:46:53 · 58 阅读 · 0 评论 -
21 | 从阿里内部产品看海量数据处理系统的设计(上):Doris的立项
也不能太高,如果设定太高,过度承诺,让老板、用户对你未来交付的产品抱有太高的期望,将来稍有不慎,无法达到期望,不但对产品的发展造成不良影响,甚至大家对你的人品都会产生怀疑。就像你做的东西将来也一定会有问题,因为现在的产品在将来一定会落伍,但那已经不再是你的问题。另一方面,对工程师而言,业务产品的开发技术难度相对较低,如果要想更快提高自己的技术水平,去开发基础技术产品更能得到提升和锻炼,所以优秀的工程师更愿意去开发有难度有挑战的创新性基础技术产品,而不是去开发那些千篇一律的业务产品。有没有现成的解决方案?原创 2023-11-06 16:07:33 · 70 阅读 · 0 评论 -
20 | Spark的性能优化案例分析(下)
上一期,讲了软件性能优化必须经过进行性能测试,并在了解软件架构和技术的基础上进行。今天,我们通过几个 Spark 性能优化的案例,看一看所讲的性能优化原则如何落地。如果忘记了性能优化的原则,可以返回上一期复习一下。基于软件性能优化原则和 Spark 的特点,Spark 性能优化可以分解为下面几步。1. 性能测试,观察 Spark 性能特性和资源(CPU、Memory、Disk、Net)利用情况。2. 分析、寻找资源瓶颈。3. 分析系统架构、代码,发现资源利用关键所在,思考优化策略。原创 2023-11-06 15:42:12 · 76 阅读 · 0 评论 -
19 | Spark的性能优化案例分析(上)
我们知道,现在最主流的大数据技术几乎都是开源的产品,不管是 Hadoop 这样的大数据存储与计算产品,还是 Hive、Spark SQL 这样的大数据仓库,又或者 Storm、Flink 这样的大数据流计算产品,还有 Mahout、MLlib 这样的大数据机器学习算法库,它们都来自开源社区。所以,我们在使用大数据、学习大数据的过程中肯定少不了要和开源社区打交道。原创 2023-11-06 14:28:56 · 59 阅读 · 0 评论 -
18 | 如何自己开发一个大数据SQL引擎?
那么,在程序设计上如何实现这样复杂的语法转换呢?红框内的组件我们重新开发过,浅蓝色的是我们使用的一个开源的 SQL 语法解析器,将标准 SQL 解析成标准 SQL 抽象语法树(SQL AST),后面深蓝色的就是团队自己开发的 SQL 抽象语法树分析与转换器,将 SQL AST 转换成 Hive AST。今天讲的是一个 SQL 引擎是如何设计出来的,也许在你的工作几乎不可能去开发 SQL 引擎,但是了解这些基础的知识,了解一些设计的技巧,对你用好数据库,开发更加灵活、有弹性的系统也会很有帮助。原创 2023-11-06 11:31:52 · 131 阅读 · 0 评论 -
17 | 模块答疑:这么多技术,到底都能用在什么场景里?
比如滴滴的司机每隔几秒就会将当前的 GPS 数据上传,而滴滴上的司机数量号称有上千万,每天会产生数百亿的 GPS 数据,滴滴选择将这样海量的数据存储在 HBase 中,当订单行程结束的时候,会从 HBase 读取订单行程期间的 GPS 轨迹数据,计算路程和车费。大数据计算框架最早是 MapReduce,目前看来,用的最多的是 Spark。比如在企业应用中,会把通过各种渠道得到的数据,比如关系数据库的数据、日志数据、应用程序埋点采集的数据、爬虫从外部获取的数据,统统存储到 HDFS 上,供后续的统一使用。原创 2023-11-06 10:44:25 · 31 阅读 · 0 评论 -
16 | ZooKeeper是如何保证数据一致性的?
你可能还记得,我们在讲 HDFS 和 HBase 架构分析时都提到了 ZooKeeper。在分布式系统里的多台服务器要对数据状态达成一致,其实是一件很有难度和挑战的事情,因为服务器集群环境的软硬件故障随时会发生,多台服务器对一个数据的记录保持一致,需要一些技巧和设计。这也就是我们今天要讨论的分布式系统一致性与 ZooKeeper 的架构。在讲分布式系统一致性前,我们先回顾一下 HDFS。HDFS 为了保证整个集群的高可用,需要部署两台 NameNode 服务器,一台作为主服务器,一台作为从服务器。原创 2023-11-06 09:58:42 · 47 阅读 · 0 评论 -
15 | 流式计算的代表:Storm、Flink、Spark Streaming
前面介绍的大数据技术主要是处理、计算存储介质上的大规模数据,这类计算也叫大数据批处理计算。顾名思义,数据是以批为单位进行计算,比如一天的访问日志、历史上所有的订单数据等。这些数据通常通过 HDFS 存储在磁盘上,使用 MapReduce 或者 Spark 这样的批处理大数据计算框架进行计算,一般完成一次计算需要花费几分钟到几小时的时间。此外,还有一种大数据技术,针对实时产生的大规模数据进行即时计算处理,我们比较熟悉的有摄像头采集的实时视频数据、淘宝实时产生的订单数据等。原创 2023-11-06 01:28:14 · 161 阅读 · 0 评论 -
14 | BigTable的开源实现:HBase
我们知道,Google 发表 GFS、MapReduce、BigTable 三篇论文,号称“三驾马车”,开启了大数据的时代。那和这“三驾马车”对应的有哪些开源产品呢?我们前面已经讲过了 GFS 对应的 Hadoop 分布式文件系统 HDFS,以及 MapReduce 对应的 Hadoop 分布式计算框架 MapReduce,今天我们就来领略一下BigTable 对应的 NoSQL 系统 HBase,看看它是如何大规模处理海量数据的。原创 2023-11-05 23:43:05 · 126 阅读 · 1 评论 -
13 | 同样的本质,为何Spark可以更高效?
上一期我们讨论了 Spark 的编程模型,这期我们聊聊Spark 的架构原理。和 MapReduce 一样,。但是和 MapReduce 僵化的 Map 与 Reduce 分阶段计算相比,Spark 的计算框架更加富有弹性和灵活性,进而有更好的运行性能。原创 2023-11-05 22:00:32 · 114 阅读 · 0 评论 -
12 | 我们并没有觉得MapReduce速度慢,直到Spark出现
当然 Spark 也有自己的生态体系,以 Spark 为基础,有支持 SQL 语句的 Spark SQL,有支持流计算的 Spark Streaming,有支持机器学习的 MLlib,还有支持图计算的 GraphX。但是这种技巧需要深邃的观察力和洞察力,如果没有深度的思考,做出的东西就会沦为异想天开和自以为是。总之,你需要记住,Spark 应用程序代码中的 RDD 和 Spark 执行过程中生成的物理 RDD 不是一一对应的,RDD 在 Spark 里面是一个非常灵活的概念,同时又非常重要,需要认真理解。原创 2023-11-05 19:45:10 · 43 阅读 · 0 评论 -
11 | Hive是如何让MapReduce实现SQL操作的?
前面我们讲过,MapReduce 的出现大大简化了大数据编程的难度,使得大数据计算不再是高不可攀的技术圣殿,普通工程师也能使用 MapReduce 开发大数据程序。但是对于经常需要进行大数据计算的人,比如从事研究商业智能(BI)的数据分析师来说,他们通常使用 SQL 进行大数据分析和统计,MapReduce 编程还是有一定的门槛。而且如果每次统计和分析都开发相应的 MapReduce 程序,成本也确实太高了。那么有没有更简单的办法,可以直接将 SQL 运行在大数据平台上呢?原创 2023-11-05 19:22:21 · 113 阅读 · 0 评论 -
10 | 模块答疑:我们能从Hadoop学到什么?
而有些技术,当时我放弃了,它们再也没有出现在我面前,后来它们被历史淘汰了,我也没有浪费自己的时间。还有的时候,你学一样新技术却苦苦不能入门,可能仅仅就是因为你看的文章、书籍本身写得糟糕,或者作者写法跟你的思维方式不对路而已,并不代表这个技术有多难,更不代表你的能力有问题,如果换个方式、换个时间、换篇文章重新再看,可能就豁然开朗了。有的时候,你不需要多么天才的思考力,也不需要超越众人去预见未来,你只需要当机会到来的时候,能够敏感地意识到机会,全力以赴付出你的才智和努力,就可以脱颖而出了。原创 2023-11-05 18:44:51 · 36 阅读 · 0 评论 -
09 | 为什么我们管Yarn叫作资源调度框架?
所谓高层模块和低层模块的划分,简单说来就是在调用链上,处于前面的是高层,后面的是低层。我们以典型的 Java Web 应用举例,用户请求在到达服务器以后,最先处理用户请求的是 Java Web 容器,比如 Tomcat、Jetty 这些,通过监听 80 端口,把 HTTP 二进制流封装成 Request 对象;然后是 Spring MVC 框架,把 Request 对象里的用户参数提取出来,根据请求的 URL 分发给相应的 Model 对象处理;原创 2023-11-05 18:04:46 · 28 阅读 · 0 评论 -
08 | MapReduce如何让数据完成一次旅行?
上一期我们聊到 MapReduce 编程模型将大数据计算过程切分为 Map 和 Reduce 两个阶段,先复习一下,在 Map 阶段为每个数据块分配一个 Map 计算任务,然后将所有 map 输出的 Key 进行合并,相同的 Key 及其对应的 Value 发送给同一个 Reduce 任务去处理。通过这两个阶段,工程师只需要遵循 MapReduce 编程模型就可以开发出复杂的大数据计算程序。那么这个程序是如何在分布式集群中运行起来的呢?MapReduce 程序又是如何找到相应的数据并进行计算的呢?原创 2023-11-05 17:45:45 · 29 阅读 · 0 评论 -
07 | 为什么说MapReduce既是编程模型又是计算框架?
在 Hadoop 问世之前,其实已经有了分布式计算,只是那个时候的分布式计算都是专用的系统,只能专门处理某一类计算,比如进行大规模数据的排序。很显然,这样的系统无法复用到其他的大数据计算场景,每一种应用都需要开发与维护专门的系统。而 Hadoop MapReduce 的出现,使得大数据计算通用编程成为可能。我们只要遵循 MapReduce 编程模型编写业务处理逻辑代码,就可以运行在 Hadoop 分布式集群上,无需关心分布式计算是如何完成的。原创 2023-11-05 17:15:06 · 49 阅读 · 0 评论 -
06 | 新技术层出不穷,HDFS依然是存储的王者
我们知道,Google 大数据“三驾马车”的第一驾是 GFS(Google 文件系统),而 Hadoop 的第一个产品是 HDFS,可以说分布式文件存储是分布式计算的基础,也可见分布式文件存储的重要性。如果我们将大数据计算比作烹饪,那么数据就是食材,而 Hadoop 分布式文件系统 HDFS 就是烧菜的那口大锅。厨师来来往往,食材进进出出,各种菜肴层出不穷,而不变的则是那口大锅。大数据也是如此,这些年来,各种计算框架、各种算法、各种应用场景不断推陈出新,让人眼花缭乱,但是大数据存储的王者依然是 HDFS。原创 2023-11-05 08:05:35 · 32 阅读 · 0 评论 -
05 | 从RAID看垂直伸缩到水平伸缩的演化
RAID 根据可以使用的磁盘数量,将待写入的数据分成多片,并发同时向多块磁盘进行写入,显然写入的速度可以得到明显提高;可以在数据写入磁盘的时候,将数据分成 N-1 份,并发写入 N-1 块磁盘,并在第 N 块磁盘记录校验数据,这样任何一块磁盘损坏(包括校验数据磁盘),都可以利用其他 N-1 块磁盘的数据修复。一般情况下,一台服务器上很少出现同时损坏两块磁盘的情况,在只损坏一块磁盘的情况下,如果能利用其他磁盘的数据恢复损坏磁盘的数据,这样在保证可靠性和性能的同时,磁盘利用率也得到大幅提升。原创 2023-11-04 23:36:29 · 34 阅读 · 0 评论 -
04 | 移动计算比移动数据更划算
大数据技术和传统的软件开发技术在架构思路上有很大不同,大数据技术更为关注数据,所以相关的架构设计也围绕数据展开,如何存储、计算、传输大规模的数据是要考虑的核心要素。传统的软件计算处理模型,都是“输入 -> 计算 -> 输出”模型。也就是说,一个程序给它传入一些数据也好,它自己从某个地方读取一些数据也好,总是先有一些输入数据,然后对这些数据进行计算处理,最后得到输出结果。但是在互联网大数据时代,需要计算处理的数据量急速膨胀。一来是因为互联网用户数远远超过传统企业的用户,相应产生了更大量的数据;原创 2023-11-04 23:11:39 · 44 阅读 · 0 评论 -
预习 03 | 大数据应用领域:数据驱动一切
大数据出现的时间只有十几年,被人们广泛接受并应用只有几年的时间,但就是这短短几年的时间,大数据呈现出爆炸式增长的态势。在各个领域,大数据的身影几乎无处不在。今天我们通过一些大数据典型的应用场景分析,一起来看看大数据到底能做些什么,我们学大数据究竟有什么用,应该关注大数据的哪些方面。原创 2023-11-04 22:19:23 · 46 阅读 · 0 评论 -
预习 02 | 大数据应用发展史:从搜索引擎到人工智能
上一期我们聊了大数据技术的发展历程,事实上,我们对大数据技术的使用同样也经历了一个发展过程。从最开始的 Google 在搜索引擎中开始使用大数据技术,到现在无处不在的各种人工智能应用,伴随着大数据技术的发展,大数据应用也从曲高和寡走到了今天的遍地开花。Google 从最开始发表大数据划时代论文的时候,也许自己也没有想到,自己开启了一个大数据的新时代。今天大数据和人工智能的种种成就,离不开全球数百万大数据从业者的努力,这其中也包括你和我。原创 2023-11-04 20:55:44 · 69 阅读 · 0 评论 -
预习 01 | 大数据技术发展史:大数据的前世今生
如果有时间,你可以简单浏览下 Hadoop 的代码,这个纯用 Java 编写的软件其实并没有什么高深的技术难点,使用的也都是一些最基础的编程技巧,也没有什么出奇之处,但是它却给社会带来巨大的影响,甚至带动一场深刻的科技革命,推动了人工智能的发展与进步。图中的所有这些框架、平台以及相关的算法共同构成了大数据的技术体系,将会在专栏后面逐个分析,能够对大数据技术原理和应用算法构建起完整的知识体系,进可以专职从事大数据开发,退可以在自己的应用开发中更好地和大数据集成,掌控自己的项目。原创 2023-11-04 20:47:49 · 286 阅读 · 0 评论