StevenPeng的学习之路-CSDN博客

原创 Hadoop权威指南读书笔记（三）——认识HDFS

一、什么是HDFS尽管磁盘容量的发展速度很快，但单台物理机的存储能力面对海量数据是远远不够的。分布式的存储是大数据的基石。管理跨多台计算机存储的数据/文件，是分布式文件系统角色的定位。Hadoop的分布式文件系统是HDFS，以流式数据访问模式（在后面对HDFS读取/写入文件进行剖析的时候会具体阐述）来存储超大的文件。分布式文件系统，其主要的几个难点在于如何容忍节点故障（高可用性–HA）、保...

2020-04-19 23:05:13 189

原创 Hadoop权威指南读书笔记（二）—— MapReduce的Hello World（气温分析实例demo）

书中第二章以一个气温分析的实例，来帮助读者初步了解MapReduce的编程模式和一些相关的接口。例子非常简单，大概可以理解为利用MapReduce来实现对各地一段年份区间内的天气数据来求得每年的最高气温。通过该例子，基本可以了解Map、Reduce函数基本的角色，相关接口的使用、以及如何将写好的程序打包放到集群运行。一、环境搭建当然先决条件是配置Hadoop开发环境（我这里安装的是2.10）...

2020-04-08 19:52:05 266

原创 Hadoop权威指南读书笔记（二）—— MapReduce初理解

一、本章概览MapReduce可以看作是Hadoop中的分布式计算框架，是用于批量数据离线处理的编程模型。基于MapReduce的并行数据处理是Hadoop能够支撑大数据计算的核心。书中这一章是以一个实际的例子对MapReduce的过程、机制还有Hadoop提供的相关编程模型及借口做了简单的介绍，内容即非常易懂，也能让读者初步地宏观了解MapReduce的计算原理。其中很多细节的地方书中并没有...

2020-04-06 22:17:38 213

原创 Hadoop权威指南读书笔记（一）——RDB为什么不适合MapReduce

大数据组件原理及源码系列Hadoop权威指南读书笔记（一）——RDB为什么不适合MapReduce最近决定开始用博客记录自己的学习之路，有两点希望：一是希望以输出为指向的学习能够促使自己加深对知识的理解；二是希望能够将自己的一些见解分享给需要的人。好了，铺垫的话就不多说了，早点进入正题为宜。由于很多知识是初学，有理解得不到位/错误的地方，欢迎指出/讨论。Hadoop权威指南第一章内容总结第...

2020-04-01 00:13:15 195

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人