Hadoop整体感知

最新推荐文章于 2020-11-02 17:33:28 发布

king_eagle2015

最新推荐文章于 2020-11-02 17:33:28 发布

阅读量457

点赞数

分类专栏：设计模式文章标签： hadoop

本文链接：https://blog.csdn.net/whp15369657805/article/details/78304985

版权

设计模式专栏收录该内容

13 篇文章 1 订阅

订阅专栏

认识一门新技术首先从该技术解决什么问题开始，探讨该技术为解决问题提供了什么特性，是如何实现该特性的，最后探讨在真是环境的应用。

1. 为什么会有hadoop？

随着公司业务发展，数据会逐渐增多，格式也越来越复杂，而这些数据是存在潜在价值的，当数据量达到P级别时，传统数据库就会在存储和计算的平衡上趋于瓶颈。hadoop就是为解决该类问题而诞生的。

同时，hadoop只要运行在廉价硬件服务器上即可，基于开源协议，学习成本不高，因此成为大家追逐的对象。

2. hadoop的优秀特性是什么？

hadoop是能够对大量数据进行分布式处理的软件架构，具有可靠，高效，可伸缩的数据处理能力。其核心设计是HDFS 和MapReduce，HDFS分布式文件处理系统提供存储海量数据的能力，mapreduce为数据提供计算。

可靠性：hadoop按位存储和处理数据

高扩展性：可扩展到数以千计的节点中

高效性：节点间高效移动数据，保证各个结点动态平衡。

高容错性：hadoop自动为数据保存多个副本，当复制因子为3时，HDFS的放置策略是将一个副本放在本地机架中的一个节点上，另一个在本地机架上的另一个节点上，最后在不同机架中的不同节点上。此策略可以减少机架间的写入流量，从而提高写入性能。机架故障的机会远小于节点故障的机会; 此政策不影响数据的可靠性和可用性保证。然而，它确实降低了读取数据时使用的总体网络带宽，因为块仅放置在两个独特的机架中，而不是三个。使用此策略，文件的副本不能均匀分布在机架中。三分之一的副本在一个节点上，三分之二的副本在一个机架上，另外三个是均匀分布在剩余的机架上。

3. HDFS和MapReduce的基本理解：

HDFS对客户来说，是一个分级的文件系统，与zookeeper十分相似。存储到HDFS的文件被分成块，除了最后一个其他块大小均相等，然后将这些块复制到多个计算机的datanode中，另外提供NameNode对文件进行操作。

一个集群服务仅包含一个namenode节点，多个datanode。NameNode通过eidtlog的事务日志持续记录文件系统发生的每个更改。整个文件系统命名空间存储在fsimage文件中。NameNode的工作机制是从磁盘读取FsImage和EditLog，将EditLog事务读取到FsImage的内存中，并将信版本刷新到FsImage磁盘上，然后截断旧EditLog。

MapReduce框架激昂输入数据分成独立的块，由map任务并行执行，将映射的数据进行排序，输出到reduce任务中进行计算。

4. 真实使用案例：http://blog.csdn.net/ldds_520/article/details/41309605

在真实的应用环境中，hadoo用于日志分析，A/B测试评审，即时处理和图表生成。

king_eagle2015

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
Hadoop整体感知

认识一门新技术首先从该技术解决什么问题开始，探讨该技术为解决问题提供了什么特性，是如何实现该特性的，最后探讨在真是环境的应用。 1. 为什么会有hadoop？随着公司业务发展，数据会逐渐增多，格式也越来越复杂，而这些数据是存在潜在价值的，当数据量达到P级别时，传统数据库就会在存储和计算的平衡上趋于瓶颈。hadoop就是为解决该类问题而诞生的。
复制链接

扫一扫

专栏目录