![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop知识点
文章平均质量分 62
weixin_37886463
好好学习天天向上
展开
-
HDFS JAVA API相关的操作方法
import java.io.File;import java.io.FileInputStream;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FSDataOutputStream;import org.a...原创 2018-03-06 22:15:43 · 244 阅读 · 0 评论 -
HDFS知识点
DataNode包含了两部分内容:首先是存储的数据本身;然后是数据的元数据信息(元数据包括了数据块的长度、时间戳、块数据的校验和)!NameNode主要是用来存储数据的元数据信息(元数据包括了数据的文件目录结构、文件名、文件属性(包括文件生成时间、副本数、以及文件权限)、以及文件对应的块列表和每个块所在的位置信息等)其中,文件在集群中一共存储三份!NameNode和DataNode之间是通过心跳机...原创 2018-03-06 22:16:27 · 227 阅读 · 0 评论 -
Hadoop的基本组成
hadoop主要包含了四个模块:即:Hadoop Commonhadoop工具包,为其它hadoop模块提供基础设施。Hadoop HDFS对海量数据的存储。hadoop分布式文件系统,用于存储海量数据;具有分布式特征;安全性:同时存储三份副本数据Hadoop MapReduce对海量数据的处理。也是分布式处理的策略。其思想是:分而治之大数据及分为多个小的数据集对于每个小的数据集进行逻辑业务的处理...原创 2018-03-15 11:31:40 · 2918 阅读 · 0 评论 -
MapReduce详解
Mapreduce的主要思想:分而治之主要分为两个步骤:map和Reducemap(映射):对所有数据分割后的每一个单独模块分别进行处理reduce:对map处理后的结果进行合并。一个基本的MapReduce程序:input -> map -> reduce -> output===其它的并行编程中的种种复杂问题,如分布式存储、工作调度、负载平衡等都由yarn实现。并行编程模型的...原创 2018-03-15 11:40:13 · 445 阅读 · 0 评论 -
MapReduce On yarn运行过程详解
老的MapReduce主要包括Job Tracker和Task Tracker,YARN中主要是三个组件:Resource Manager、Node Manager和Application Master。Resource Manager负责全局资源分配,Application Master每个节点一个,负责当前节点的调度和协调。Node Manager是每台机器的代理,监控应用程序的资源使用情况,...原创 2018-03-15 11:45:43 · 1806 阅读 · 0 评论 -
HDFS HA(HDFS高可用QJM方式)
HDFS HA(HDFS高可用QJM方式)HDFS中NameNode用于存储元数据信息,元数据信息包括了文件名称、文件路径、文件的所有者、文件的所属组、文件的权限、文件的副本数等等等。这样NameNode会存在单点瓶颈问题。此外考虑到NameNode有的时候需要进行集群内服务器升级、NameNode宕机等动态因素,一种HA机制迫切需要!HA机制(不需要SecondaryNameNode,将合并工作...原创 2018-03-19 11:01:23 · 452 阅读 · 0 评论