Hadoop整体感知

          认识一门新技术首先从该技术解决什么问题开始,探讨该技术为解决问题提供了什么特性,是如何实现该特性的,最后探讨在真是环境的应用。


       1. 为什么会有hadoop?


        随着公司业务发展,数据会逐渐增多,格式也越来越复杂,而这些数据是存在潜在价值的,当数据量达到P级别时,传统数据库就会在存储和计算的平衡上趋于瓶颈。hadoop就是为解决该类问题而诞生的。


        同时,hadoop只要运行在廉价硬件服务器上即可,基于开源协议,学习成本不高,因此成为大家追逐的对象。


       2. hadoop的优秀特性是什么?


       hadoop是能够对大量数据进行分布式处理的软件架构,具有可靠,高效,可伸缩的数据处理能力。其核心设计是HDFS 和MapReduce,HDFS分布式文件处理系统提供存储海量数据的能力,mapreduce为数据提供计算。


       可靠性:hadoop按位存储和处理数据

       高扩展性:可扩展到数以千计的节点中

       高效性:节点间高效移动数据,保证各个结点动态平衡。

       高容错性:hadoop自动为数据保存多个副本,当复制因子为3时,HDFS的放置策略是将一个副本放在本地机架中的一个节点上,另一个在本地机架上的另一个节点上,最后在不同机架中的不同节点上。此策略可以减少机架间的写入流量,从而提高写入性能。机架故障的机会远小于节点故障的机会; 此政策不影响数据的可靠性和可用性保证。然而,它确实降低了读取数据时使用的总体网络带宽,因为块仅放置在两个独特的机架中,而不是三个。使用此策略,文件的副本不能均匀分布在机架中。三分之一的副本在一个节点上,三分之二的副本在一个机架上,另外三个是均匀分布在剩余的机架上。

 

      3. HDFS和MapReduce的基本理解:


       HDFS对客户来说,是一个分级的文件系统,与zookeeper十分相似。存储到HDFS的文件被分成块,除了最后一个其他块大小均相等,然后将这些块复制到多个计算机的datanode中,另外提供NameNode对文件进行操作。


       一个集群服务仅包含一个namenode节点,多个datanode。NameNode通过eidtlog的事务日志持续记录文件系统发生的每个更改。整个文件系统命名空间存储在fsimage文件中。NameNode的工作机制是从磁盘读取FsImage和EditLog,将EditLog事务读取到FsImage的内存中,并将信版本刷新到FsImage磁盘上,然后截断旧EditLog。


     MapReduce框架激昂输入数据分成独立的块,由map任务并行执行,将映射的数据进行排序,输出到reduce任务中进行计算。


      4. 真实使用案例:http://blog.csdn.net/ldds_520/article/details/41309605


      在真实的应用环境中,hadoo用于日志分析,A/B测试评审,即时处理和图表生成。

       

        

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值