![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 94
golazycat
我爱技术。
展开
-
Hadoop笔记一:伪分布式安装
Hadoop笔记一:伪分布式安装 Hadoop安装分为单机、伪分布式和完全分布式。 单机模式是Hadoop的默认模式。在初次安装Hadoop后,将使用这个模式。此时Hadoop的三个配置文件为空。单机模式不使用HDFS,也不加载任何Hadoop守护进程,仅用来调试MapReduce程序。 伪分布式,Hadoop的守护进程在一台机器上运行,模拟一个小规模的集群。HDFS和MapReduce可以...原创 2018-03-29 22:50:38 · 279 阅读 · 0 评论 -
Hadoop笔记二:HDFS
HDFS是Hadoop为了储存海量数据而使用的一种分布式文件系统。这种文件系统是运作于多个机器之上的。 HDFS为了保证数据储存的可靠和读取性能,会把保存的数据进行切块后进行复制并且储存在集群的多个节点中。 HDFS存在名字节点NameNode和数据节点DataNode: NameNode:储存元数据信息,也就是具体文件,block,datanode之间的映射关系。数据保存在内存和磁盘中。...原创 2018-03-29 22:52:52 · 222 阅读 · 0 评论 -
Hadoop笔记三: MapReduce
MapReduce是一个分布式的计算框架。最初由谷歌的工程师开发,基于GFS的分布式计算框架,主要用于搜索领域解决海量数据的计算问题。 Cutting根据这个框架,设计了基于HDFS的MapReduce框架 MapReduce可以让程序员远离分布式计算编程,不需要考虑任务调度、逻辑切块、位置追溯等问题。他们就可以把精力集中在业务上了。 MapReduce由两个阶段组成:Map和Reduce。...原创 2018-03-31 19:23:05 · 315 阅读 · 0 评论 -
Hadoop 笔记四:高可用分布式集群策略
Hadoop使用了master/slave的集群架构。master包括了NameNode和ResourseManager两个重要的Hadoop节点。所以master是一种非常重要的节点。一定要保证master的硬件资源是最好的。 但是,即使是最好硬件,最稳定的机器也可能出现问题,而master又是如此重要,所以我们需要一种高可用架构,使得即使master坏掉,整个集群也能迅速恢复工作。 Had...原创 2018-03-31 19:24:57 · 363 阅读 · 0 评论