Hadoop权威指南读书笔记
StevenPeng的学习之路
这个作者很懒,什么都没留下…
展开
-
Hadoop权威指南读书笔记(三)——认识HDFS
一、什么是HDFS尽管磁盘容量的发展速度很快,但单台物理机的存储能力面对海量数据是远远不够的。分布式的存储是大数据的基石。管理跨多台计算机存储的数据/文件,是分布式文件系统角色的定位。Hadoop的分布式文件系统是HDFS,以流式数据访问模式(在后面对HDFS读取/写入文件进行剖析的时候会具体阐述) 来存储超大的文件。分布式文件系统,其主要的 几个难点在于如何容忍节点故障(高可用性–HA)、保...原创 2020-04-19 23:05:13 · 196 阅读 · 0 评论 -
Hadoop权威指南读书笔记(二)—— MapReduce的Hello World(气温分析实例demo)
书中第二章以一个气温分析的实例,来帮助读者初步了解MapReduce的编程模式和一些相关的接口。例子非常简单,大概可以理解为利用MapReduce来实现对各地一段年份区间内的天气数据来求得每年的最高气温。通过该例子,基本可以了解Map、Reduce函数基本的角色,相关接口的使用、以及如何将写好的程序打包放到集群运行。一、环境搭建当然先决条件是配置Hadoop开发环境(我这里安装的是2.10)...原创 2020-04-08 19:52:05 · 284 阅读 · 0 评论 -
Hadoop权威指南读书笔记(二)—— MapReduce初理解
一、本章概览MapReduce可以看作是Hadoop中的分布式计算框架,是用于批量数据离线处理的编程模型。基于MapReduce的并行数据处理是Hadoop能够支撑大数据计算的核心。书中这一章是以一个实际的例子对MapReduce的过程、机制还有Hadoop提供的相关编程模型及借口做了简单的介绍,内容即非常易懂,也能让读者初步地宏观了解MapReduce的计算原理。其中很多细节的地方书中并没有...原创 2020-04-06 22:17:38 · 216 阅读 · 0 评论