自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Hadoop权威指南读书笔记(三)——认识HDFS

一、什么是HDFS尽管磁盘容量的发展速度很快,但单台物理机的存储能力面对海量数据是远远不够的。分布式的存储是大数据的基石。管理跨多台计算机存储的数据/文件,是分布式文件系统角色的定位。Hadoop的分布式文件系统是HDFS,以流式数据访问模式(在后面对HDFS读取/写入文件进行剖析的时候会具体阐述) 来存储超大的文件。分布式文件系统,其主要的 几个难点在于如何容忍节点故障(高可用性–HA)、保...

2020-04-19 23:05:13 189

原创 Hadoop权威指南读书笔记(二)—— MapReduce的Hello World(气温分析实例demo)

书中第二章以一个气温分析的实例,来帮助读者初步了解MapReduce的编程模式和一些相关的接口。例子非常简单,大概可以理解为利用MapReduce来实现对各地一段年份区间内的天气数据来求得每年的最高气温。通过该例子,基本可以了解Map、Reduce函数基本的角色,相关接口的使用、以及如何将写好的程序打包放到集群运行。一、环境搭建当然先决条件是配置Hadoop开发环境(我这里安装的是2.10)...

2020-04-08 19:52:05 266

原创 Hadoop权威指南读书笔记(二)—— MapReduce初理解

一、本章概览MapReduce可以看作是Hadoop中的分布式计算框架,是用于批量数据离线处理的编程模型。基于MapReduce的并行数据处理是Hadoop能够支撑大数据计算的核心。书中这一章是以一个实际的例子对MapReduce的过程、机制还有Hadoop提供的相关编程模型及借口做了简单的介绍,内容即非常易懂,也能让读者初步地宏观了解MapReduce的计算原理。其中很多细节的地方书中并没有...

2020-04-06 22:17:38 213

原创 Hadoop权威指南读书笔记(一)——RDB为什么不适合MapReduce

大数据组件原理及源码系列Hadoop权威指南读书笔记(一)——RDB为什么不适合MapReduce最近决定开始用博客记录自己的学习之路,有两点希望:一是希望以输出为指向的学习能够促使自己加深对知识的理解;二是希望能够将自己的一些见解分享给需要的人。好了,铺垫的话就不多说了,早点进入正题为宜。由于很多知识是初学,有理解得不到位/错误的地方,欢迎指出/讨论。Hadoop权威指南第一章内容总结第...

2020-04-01 00:13:15 195

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除