![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop基础学习笔记
参考图书基于hadoop与spark的大数据分析
日志大魔王
热爱经济学,摇滚的死宅程序员。。。。。。!!
展开
-
MapReduce基础
MapReduce是什么? MapReduce是Google的一项重要开源项目,他是一个用于大数据量计算的编程模型,对于大数据量计算,通常采用并行计算,但对大多说开发人员来说,自己完完全全实现一个并行计算的程序难度较大,MapReduce就是一种简化的并行计算编程模型。 MapReduce的特点 (1)易于编程,只需要简单的实现MapReduce提供的接口,就可以完成一个分布式程序。 (2...原创 2019-11-26 00:31:53 · 297 阅读 · 0 评论 -
HDFS架构基础
HDFS采用master/slave架构,即一个namenode(管理者)多个datanode(工作者)。 HDFS文件读取流程 1.客户端调用Distribute File System获取需要读取的数据文件。 2.Distribute File System会远程调用NamdeNode,获取到要读取的数据文件对应的Block存放在那些DataNode节点上。 3.客户端先到位置最近的D...原创 2019-11-17 22:56:24 · 167 阅读 · 0 评论 -
HDFS分布式系统基础
1.数据块 数据块是HDFS默认的最基本存储单位,默认块大小是64MB,HDFS中的文件是分成数据块存储的,如果一个文件小于一个数据块大小,并不占用整个块的存储空间,文件是多大就占多少空间。 2.元数据节点(NameNode) NameNode的职责是管理文件系统的命名空间,所有的文件和文件夹元数据保存在一个文件系统树中,如一个文件保存在那些数据块,分布在那些节点上等(这些信息存储在hdfs...原创 2019-11-17 20:31:17 · 95 阅读 · 0 评论 -
HDFS分布式文件系统概括
Hadoop文件系统 Hadoop整合了众多底层文件系统,如本地文件系统,HDFS文件系统,HFTP,HSFTP,HAR,PTP,S3本地,S3基于块。 Hadoop文件系统 1.HDFS入门 HDFS是Hadoop核心项目的子项目,用于分布式数据存储,官方的描述是:HDFS可以运行在廉价的服务器上,为海量数据存储提供,高可靠,可容错,高扩展,高获得,高吞吐率等特征。 2.HDFS的...原创 2019-11-16 10:50:08 · 186 阅读 · 0 评论