大数据架构
介绍Hadoop相关生态组件的基本原理,以及实现细节,可能附有源码解析
柏拉图学院
欢迎浏览我的博客~
展开
-
MapReduce原理入门(附源码解析)
序言 本篇旨在介绍MapReduce的原理及实现细节,一些核心步骤会附带源码解析。MapReduce是配合HDFS产生的,HDFS负责分布式存储,MapReduce负责分布式计算。虽然已经有很多技术成熟的框架计算速度远超过MapReduce,如Spark,但是作为分布式计算的开山鼻祖,MapReduce的思想足够经典,仍然值得学习。 本文面向入门读者,不需要过多的编程基础,不过建议先阅读上一篇:HDFS原理入门。 什么是分布式计算? 当某文件数据很大(可能有几百TB),分布的存储在各个机器时,如果需要对文件原创 2020-07-09 20:25:56 · 937 阅读 · 1 评论 -
HDFS原理入门
序言 本篇旨在通过平白朴实的语言介绍hdfs的工作原理,让读者对于分布式文件存储有一个宏观上的认识。并不涉及具体的安装配置使用等,原因是具体使用的文章已经够多了,而且单单阐述原理也足够写一篇长文了。如有必要,可以另起一篇写使用方法和细节,本篇还是以了解思想,入门为主。 HDFS一句话简介 hdfs是服务于大数据计算的文件存储管理系统,是一切基于Hadoop大数据计算的基础。 为什么需要hdfs来做文件管理呢? 因为hdfs在分布式存储之外还更好的支持分布式计算,是Hadoop生态圈的基础。 HDFS存储模型原创 2020-07-01 18:55:01 · 425 阅读 · 0 评论