《Hadoop权威指南》笔记
文章平均质量分 88
Hadoop权威指南笔记
半臻(火白)
技术栈:Python、Java、大数据、人工智能
展开
-
Hadoop权威指南笔记4——第4章:关于YARN
第4章:关于YARN Apache YARN(Yet Another Resource Negotiator的缩写) 是Hadoop的集群资源管理系统。 在Hadoop2.0中引入YARN,为了改善MapReduce的实现。 但是YARN还支持其他的分布式计算模式。 YARN提供了请求和使用资源的API,我们写MapReduce、Spark等程序时,底层就调用了YARN的API 其作用关系为: MapReduce | Spark | Tez -------------------------转载 2021-08-08 14:53:59 · 170 阅读 · 0 评论 -
Hadoop权威指南笔记3——第三章:Hadoop分布式文件系统
第3章: Hadoop分布式文件系统 如果文件太大,那么一台机器肯定存不下,所以需要进行分块存储到不同的机器上。这就需要用到网络通信,同时保证文件不丢失。 Hadoop的HDFS则实现了分布式存储的共嗯那个。 本章具体介绍HDFS,以及其他的存储系统(本地文件系统、Amazon S3系统) 3.1 HDFS的设计 HDFS以流数据访问模式来存储超大文件,运行于商业硬件集群上 下面具体解释上述句子中的各个词语的含义 (1)超大文件: MB,GB,TB甚至PB级别的文件。Hadoop都可以存原创 2021-08-06 21:10:39 · 377 阅读 · 1 评论 -
Hadoop权威指南笔记2——第2章:关于MapReduce
第2章 关于MapReduce MapReduce是一个并行的数据处理模型,作者将使用Java、Ruby和Python实现。 2.1 气象数据集 作者收集了气象的数据集,用于进行MapReduce分析。 数据格式 0057 332130 # USAF weather station identifier 99999 #WBAN weather station identifier 19500101 # observation date 8300 #observation time 4 +51317原创 2021-07-28 22:18:08 · 491 阅读 · 0 评论 -
Hadoop权威指南笔记1——第1章:初始Hadoop
第1章:初识Hadoop 1.1 数据!数据! 我们生活在一个大数据的时代。各处都是数据 1.2 数据的存储与分析 硬盘容量在扩大,但是读写数据没有改变。就会导致读取大数据,数据变慢 那么就需要并行读取,但是会存在两个问题。 第一个问题: 硬件故障问题,故障容易照成数据丢失,所以需要进行备份。例如RAID、Hadoop的HDFS 第二个问题:不同磁盘的数据需要相互结合来完成计算,这里就需要用到Hadoop的MapReduce 所以,Hadoop解决了上面两个问题 1.3 查询所有数据原创 2021-07-28 22:17:23 · 211 阅读 · 0 评论