【Hadoop 10周年】我与Hadoop不得不说的故事

初识Hadoop

    初次接触Hadoop是在2008年,那时我还在读研,研究的大方向为智能信息处理,也是跟云计算沾了点边,为了准备第二年的毕业论文,在茫茫资料大海中,偶然间看到了一篇关于Hadoop介绍的文章,从那之后,便是断断续续的慢慢了解、熟悉。

    为什么说我是断断续续的了解呢?因为那个时候包括云计算都是才刚刚兴起,Hadoop在国内研究的人还不多,充斥在网络上的大部分资料也都是英文的,不像现在,并没有系统讲解Hadoop的中文书籍、文章。要看的就只有官网上的文章,我那个时候的感觉就是摸着石头过河。又因为本人学业的原因,选择了另外一个数据处理的课题-粒计算,所以说,并没有深入去学习研究Hadoop。


概述

    作为云计算所青睐的分布式架构,Hadoop是一个用Java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算。Hadoop是原Yahoo的Doug Cutting根据Google发布的学术论文研究而来。分别是谷歌发表的三篇大数据论文:Google File System、Google MapReduce、Google BigTable,这三篇文章奠定了Hadoop开源系统的理论和实践应用基础,Hadoop就是在此理论的启发的基础上设计了自己的开源的系统。

    Hadoop这个名字不是一个缩写,而是一个虚构的名字。该项目的创建者,Doug Cutting解释Hadoop的得名 :“这个名字是我孩子给一个棕黄色的大象玩具命名的。我的命名标准就是简短,容易发音和拼写,没有太多的意义,并且不会被用于别处。小孩子恰恰是这方面的高手。”


不解之缘


    工作以后,机缘巧合之下,公司里要使用ZooKeeper对公司现有的软件应用做一致性的服务管理,这个时候,透过对于ZooKeeper的改造使用,又重新捡起了Hadoop,加上本人有着Java语言和机器学习的基础。因而,我能够很快地进行Hadoop技术的学习和实践。


    也是从那时开始,心里产生了系统学习下Hadoop这个热门技术的想法。头脑中闪现着我到底想要要学习Hadoop技术哪些方面。
通过浏览Hadoop官网、Hadoop经典著作、Hadoop相关技术文档和博客等等,我的头脑中慢慢形成了我自己的Hadoop技术学习路线图。


明确自己学习的内容


       当自己静下心来之后,脑海中想的更多的还是要如何在业余时间能够学好Hadoop,通过多方面的考虑,结合自己的实际情况,我想从以下几个方面循序渐进的进行学习:


  • Hadoop基础。了解Hadoop的发展历程、Hadoop的应用场景、Hadoop的核心架构,以及Hadoop的环境构建。
  • Hadoop编程。研究HDFS和MapReduce工作原理,掌握MapReduce编程,探讨Hadoop程序的性能优化。
  • Hadoop应用。涉及到MapReduce程序的应用和Hadoop技术的综合应用。
  • Hadoop的源码解析。搭建源码阅读环境,在理解Hadoop核心架构的基础上,深入理解Hadoop的源码。
  • Hadoop生态系统里的项目。常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等等,有针对性的深入研究两到三个项目。

坚持在CSDN上写博客


    为了自我督促自己的学习,我专门在CSDN上开始写关于Hadoop的博客,从通过虚拟机搭建第一个伪分布式的环境,到真正意义上的小规模迷你Hadoop集群,再到Hadoop源码的学习研究,中间遇到的问题,如何解决问题,都记录到了自己的博客中,并建立了研磨Hadoop专栏,专门去研究学习Hadoop的方方面面。通过这个方式与热心的网友进行沟通学习,由此,我收获颇大。我的博客地址:http://blog.csdn.net/hadoop_


写在最后


   最后,世上无难事只怕有心人,按照自己初定的想法,一步步的走下去吧,虽然有时会步履蹒跚,但是,终究是一步一步在往前走。现在我时时关注Hadoop技术的进展,时常想想如何使用Hadoop技术解决大数据时代里的各种问题,并且在自己搭建的简陋环境里进行实践尝试。虽然本人只是在业余时间进行研究,硬件条件也很有限,但是,终究还是有一颗积极向上的心。也以此篇作为学习研究Hadoop的个人阶段性的总结吧。希望Hadoop发展越来越好。


列一下自己的书单与众位志同道合者共飨:

  • Hadoop: The Definitive Guide
  • Hadoop Operations
  • Hadoop in Action
  • Pro Hadoop
  • Hadoop in Practice
  • MapReduce Design Patterns
  • MapReduce2.0源码分析与编程实战
  • 高可用性的HDFS:Hadoop分布式文件系统深度实践
  • Hadoop技术内幕:深入解析YARN架构设计与实现原理
  • Hadoop技术内幕:深入解析MapReduce架构设计与实现原理
  • 云计算(第二版)
  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值