基础文本标签练习
<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8">
<title></title>
</head>
<body>
<h1>Hadoop介绍</h1>
<i>最后更新时间:2021.03.17</i>
<hr>
<h2>一、Hadoop介绍</h2>
<h3>1.1、Hadoop概述</h3>
<!--首行缩进的方法 -->
<p style="text-indent:2em;">Hadoop是Apache开源组织的一个分布式计算开源框架(http://hadoop.apache.org/),用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop框架中最核心设计就是:HDFS和MapReduce,HDFS实现存储,而MapReduce实现原理分析处理,这两部分是hadoop的核心。数据在Hadoop中处理的流程可以简单的按照下图来理解:数据通过Haddop的集群处理后得到结果,它是一个高性能处理海量数据集的工具 。
Hadoop是一个Java语言编写的框架。</p>
<h3>1.2、Hadoop优势</h3>
<!-- 无序列表ul标签,以及行高 -->
<ul style="line-height: 40px;">
<li>高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。</li>
<li>高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。</li>
<li>高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。</li>
<li>高容错性:能够自动将失败的任务重新分配。</li>
</ul>
<!-- 表示空格 -->
<h3>1.3、Hadoop组成(面试重点)</h3>
<p><b> Hadoop1.x、Hadoop2.x、Hadoop3.x区别(面试的重点)</b></p>
<img src="images/20210310183350590.png" title="Hadoop组成" alt="图片走丢了" width="700px" />
<ul style="line-height: 40px;">
<li>在Hadoop1.x时代,Hadoop的MapReduce同事处理业务逻辑运算和资源的调度,耦合性较大。</li>
<li>在Hadoop2.x时代,增加了Yarn,Yarn只负责资源调度。MapReduce只负责运算。</li>
<li>在Hadoop3.x时代,在组成上没有什么变化。</li>
</ul>
<h2>二、HDFS概述</h2>
<p style="text-indent: 2em;">HDFS(Hadoop Distributed File System,Hadoop分布式文件系统),它是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,适合那些有着超大数据集(largedata set)的应用程序。</p>
<h3>2.1、HDFS的设计特点</h3>
<!-- 有序列表ol标签 -->
<ol style="line-height: 40px;">
<li>大数据文件,非常适合上T级别的大文件或者一堆大数据文件的存储。</li>
<li>文件分块存储,HDFS会将一个完整的大文件平均分块存储到不同计算器上,它的意义在于读取文件时可以同时从多个主机取不同区块的文件,多主机读取比单主机读取效率要高得多。</li>
<li>流式数据访问,一次写入多次读写,这种模式跟传统文件不同,它不支持动态改变文件内容,而是要求让文件一次写入就不做变化,要变化也只能在文件末添加内容。</li>
<li>廉价硬件,HDFS可以应用在普通PC机上,这种机制能够让给一些公司用几十台廉价的计算机就可以撑起一个大数据集群。</li>
<li>硬件故障,HDFS认为所有计算机都可能会出问题,为了防止某个主机失效读取不到该主机的块文件,它将同一个文件块副本分配到其它某几个主机上,如果其中一台主机失效,可以迅速找另一块副本取文件。</li>
</ol>
</body>
</html>