学习计划 - hadoop

原创 2016年08月31日 08:06:41

学习目标

hadoop在什么背景下产生

当时,有一个组织在做全球免费搜索业务,但是面临大量的存储和计算,此时,Google分享了两篇论文,一个是分布式存储,稍后是分布式计算,但是Google并没有释放出源代码,该组织依据分布式存储的论文,做出了hadoop,实现了分布式存储,稍后Yahoo继续维护hadoop hdfs以及研发了mapreduce实现。

hadoop当前发展如何

hadoop当前版本3.0.0 alpha,特点,可以运行3台namenode和5台journalnode。

hadoop的技术术语有哪些

hdfs。 分布式存储。将一个文件分成若干chunk,进行分布式存储,并且有replication,默认是3,用来提高防单点,namenode负责维护chunk的位置信息,或者叫做元数据信息。分布式文件系统的概念也不难理解, 传统的存储介质是硬盘,格式化后会有inode用于文件在磁盘的位置,然后就是存储数据;hdfs就是将inode和data进行了分离,namenode作为元数据(inode)的存储,datanode作为data进行存储。

mapreduce。分布式计算。由于数据是分散存储在一批机器里面的,所以分布式计算也就是把需求者的一个计算任务,分解成很多小任务(map),最后再合并结果(reduce)。

hadoop如何部署

部署分为单机,也就做伪分布式;另外一种就是分布式。前者主要用于学习和研究hadoop的功能,消耗资源小;后者主要用于生产环境部署,包括防单点和运行速度快。

hadoop如何维护

namenode的维护。主要是内存,cpu。
datanode的维护。主要是存储容量,如果datanode上面也在运行jobtracker,那么需要注意网络、内存、cpu。

过去有没有遇到过hadoop运维中棘手的问题

(印象记忆,准确度需核实)THP transparent huge page。CentOS系统在6之后引入了THP的概念,主要是同样的内存,用多少page多少address代表同样一块内存,但是在hadoop环境下,会造成系统负载升高,禁用后系统性能得到提升。CentOS 6.5之后该THP默认就是禁用的了。

TCP Abort问题。
这里写图片描述
在晚高峰期间,hadoop namenode会记录一些连接超时的现象出现,有一次甚至影响到了集群的稳定,发生了切换,经过一周的排查,最终锁定由于网络流量过载,导致namenode等重要节点之间的通信出现TCP Aborted现象。 该机制也就是TCP的错误重传机制。当一个数据包由数据源发出,经过交换机上联以及核心之后到到目的地,由于datanode job之间的流量造成交换机网络上联出现瓶颈,造成namenode通信丢包,情况严重,最终导致namenode发生切换。该问题在上联升级到80Gbps之后得到有效缓解。

版权声明:更多精彩请关注 http://book.opschina.org, 或者加入QQ新群648503385,或者直接加微信:zzlyzq, 让天下没有难做的运维。< https://blog.csdn.net/vbaspdelphi/article/details/52381414

大数据个人学习规划

语言:python,java 爬虫:regex,xpath 数据库:mysal,oracle,mongodb,talend,postgresql, 数据格式:json,geojson,csv,x...
  • fenxishichengzhang
  • fenxishichengzhang
  • 2017-01-22 17:20:45
  • 757

hadoop学习总结

hadoop学习总结:1.hadoop简介:(1)分布式存储系统。HDFS(Hadoop Distirbuted File System) #分布式存储系统。 #提供了高可靠/高拓...
  • yiyele
  • yiyele
  • 2017-11-19 15:16:06
  • 1231

从零开始学Hadoop----浅析HDFS(一)

之前,我们简单介绍了一下Hadoop,知道他是一个处理大数据的框架。今天我们来看看Hadoop的核心构成之一—-HDFS. 这次我们知道了HDFS是一个分布式的文件存储系统,它的一些基本的概...
  • u010168160
  • u010168160
  • 2016-05-10 08:58:01
  • 4861

学习Hadoop第三课(Hadoop安装与配置)

上节我们学习了JDK安装,这节我们学习一下Hadoop的安装及环境配置        首先我们需要到Apache官网下载我们需要的Hadoop版本,Apache产品官网是:http://archiv...
  • u012453843
  • u012453843
  • 2016-09-04 17:12:35
  • 2985

学习Hadoop的前提条件

Apache Hadoop是入门点,或者我们可以说是进入整个大数据生态系统的基础。它是大数据生态系统中大多数高级工具,应用程序和框架的基础,但是在学习Apache Hadoop时,还需要事先知道一些事...
  • boonya
  • boonya
  • 2017-01-19 12:31:34
  • 1137

hadoop学习之hadoop2.8.0完全分布式集群安装

转载自:http://blog.csdn.net/peace1213/article/details/51334508 本文主要讲解Hadoop完全分布式的搭建,使用vm建立三个相同配置的...
  • Happy_wu
  • Happy_wu
  • 2017-04-19 14:28:18
  • 15700

给Hadoop初学者的一些建议

我们介绍了新手学习hadoop的入门注意事项。这篇来谈谈hadoop核心知识学习。  hadoop核心知识学习:  hadoop分为hadoop1.X和hadoop2.X,并且还有hadoop生态...
  • hanghangaidoudou
  • hanghangaidoudou
  • 2016-11-14 17:07:48
  • 1778

我自己的读书计划

想在计算机这条路上走的更远,就要努力学习计算机的一些基本理论,基础不牢,地动山摇,这是诸多前辈们的经验; 计算机的基本理论包括:离散数学、计算机体系结构、操作系统、数据结构和算法、汇编语言、编译原理、...
  • beitiandijun
  • beitiandijun
  • 2012-12-28 16:31:30
  • 2535

hadoop介绍以及高人指点的学习方法

hadoop的介绍 Apache Nutch是Hadoop的源头,该项目始于2002年,是Apache Lucene 的子项目之一。至2004年,Google在OSDI上公开发表了题为“MapRed...
  • wuzhilon88
  • wuzhilon88
  • 2013-12-05 14:19:18
  • 3797

简单介绍Hadoop学习思路

1.多看看hadoop的官网,了解官网上都有什么,官网的结构,以后遇到问题懂得去找    2.第2想办法了解hadoop的原理是什么,网上资源很多,你要搞清楚他包含什么,什么是hdfs,什么是m...
  • lifuxiangcaohui
  • lifuxiangcaohui
  • 2014-03-03 16:48:07
  • 895
收藏助手
不良信息举报
您举报文章:学习计划 - hadoop
举报原因:
原因补充:

(最多只允许输入30个字)