学习计划 - hadoop

原创 2016年08月31日 08:06:41

学习目标

hadoop在什么背景下产生

当时,有一个组织在做全球免费搜索业务,但是面临大量的存储和计算,此时,Google分享了两篇论文,一个是分布式存储,稍后是分布式计算,但是Google并没有释放出源代码,该组织依据分布式存储的论文,做出了hadoop,实现了分布式存储,稍后Yahoo继续维护hadoop hdfs以及研发了mapreduce实现。

hadoop当前发展如何

hadoop当前版本3.0.0 alpha,特点,可以运行3台namenode和5台journalnode。

hadoop的技术术语有哪些

hdfs。 分布式存储。将一个文件分成若干chunk,进行分布式存储,并且有replication,默认是3,用来提高防单点,namenode负责维护chunk的位置信息,或者叫做元数据信息。分布式文件系统的概念也不难理解, 传统的存储介质是硬盘,格式化后会有inode用于文件在磁盘的位置,然后就是存储数据;hdfs就是将inode和data进行了分离,namenode作为元数据(inode)的存储,datanode作为data进行存储。

mapreduce。分布式计算。由于数据是分散存储在一批机器里面的,所以分布式计算也就是把需求者的一个计算任务,分解成很多小任务(map),最后再合并结果(reduce)。

hadoop如何部署

部署分为单机,也就做伪分布式;另外一种就是分布式。前者主要用于学习和研究hadoop的功能,消耗资源小;后者主要用于生产环境部署,包括防单点和运行速度快。

hadoop如何维护

namenode的维护。主要是内存,cpu。
datanode的维护。主要是存储容量,如果datanode上面也在运行jobtracker,那么需要注意网络、内存、cpu。

过去有没有遇到过hadoop运维中棘手的问题

(印象记忆,准确度需核实)THP transparent huge page。CentOS系统在6之后引入了THP的概念,主要是同样的内存,用多少page多少address代表同样一块内存,但是在hadoop环境下,会造成系统负载升高,禁用后系统性能得到提升。CentOS 6.5之后该THP默认就是禁用的了。

TCP Abort问题。
这里写图片描述
在晚高峰期间,hadoop namenode会记录一些连接超时的现象出现,有一次甚至影响到了集群的稳定,发生了切换,经过一周的排查,最终锁定由于网络流量过载,导致namenode等重要节点之间的通信出现TCP Aborted现象。 该机制也就是TCP的错误重传机制。当一个数据包由数据源发出,经过交换机上联以及核心之后到到目的地,由于datanode job之间的流量造成交换机网络上联出现瓶颈,造成namenode通信丢包,情况严重,最终导致namenode发生切换。该问题在上联升级到80Gbps之后得到有效缓解。

版权声明:更多精彩请关注 http://book.opschina.org, 或者加入QQ新群648503385, 让天下没有难做的运维。

Hadoop2.x的学习路线

正如人类社会的发展,计算机的计算开始了一场计算框架蜕变的运动,由“高富大”走向了“屌丝”计算的演变过程,而hadoop在这演变的过程中充当了急先锋的角色。从接触hadoop2.x开始,已经有很长一段时...

初学者学习计划

按专题学习计划      数据结构和算法基础       理解二进制,整数、浮点数的机器表示,二进制位操作(第一周)       栈、队列、链表的概念(第一周)       树、二叉树、散列...

配置Hadoop开发环境(Eclipse)

Hadop 2.2.0 Eclipse开发环境配置
  • zythy
  • zythy
  • 2013年12月18日 16:43
  • 54461

Storm又获东风,Hortonworks计划将其整合到Hadoop企业版

摘要:自YARN及Mesos等技术出现,Hadoop同集群上运行不同技术也成为了可能。然而,开源到商用之间存在的鸿沟不可谓不大。近日,基于广泛用户的需求,Hortonworks已决定将Storm整合到...

Hadoop-impala十大优化之(4)—根据执行计划进行性能优化及最佳实践

http://blog.csdn.net/seeyouc/article/details/53581725 1.1  Hadoop-impala十大优化之(4)—根据执行计划进行性能优化及最佳实践 ...

SSD对HADOOP集群性能提升 调研及测试计划

本文主要调研SSD对于HADOOP集群性能的影响,并制定相应的测试计划,性能影响主要针对常见的HADOOP,HBASE,HIVE三个组件。 通过调研发现,组件自身也在考虑SSD对其产生的性能影响,并做...

解决扩展性瓶颈雅虎计划重构Hadoop-MapReduce

http://cloud.csdn.net/a/20110224/292508.html 最近雅虎开发者博客发了一篇介绍Hadoop重构计划的文章。因为他们发现当集群的规模达到4000台机器的时候,H...
  • sony315
  • sony315
  • 2011年02月25日 09:23
  • 400

为解决扩展性瓶颈雅虎计划重构Hadoop-MapReduce

转:http://blog.csdn.net/zns2002/article/details/6394024 最近雅虎开发者博客发了一篇介绍Hadoop重构计划的文章。因为他们发现当...
  • hjwang1
  • hjwang1
  • 2011年08月14日 18:14
  • 397

Hadoop-impala十大优化之(4)—根据执行计划进行性能优化及最佳实践

之间,以及如何将中间结果合并到生成最终结果集。在实际运行查询之前,您可以看到这些详细信息。您可以使用此信息来检查查询将不会在一些非常意想不到的或低效的方式操作。 [impalad-host:2100...
  • seeyouc
  • seeyouc
  • 2016年12月12日 13:17
  • 1114

spark学习计划

  • 2015年05月05日 10:31
  • 179KB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:学习计划 - hadoop
举报原因:
原因补充:

(最多只允许输入30个字)