学习计划 - hadoop

最新推荐文章于 2024-07-19 00:13:26 发布

LifeSecret

最新推荐文章于 2024-07-19 00:13:26 发布

阅读量1.1k

点赞数

分类专栏： hadoop 文章标签： hadoop

本文链接：https://blog.csdn.net/vbaspdelphi/article/details/52381414

版权

hadoop 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

学习目标

hadoop在什么背景下产生

当时，有一个组织在做全球免费搜索业务，但是面临大量的存储和计算，此时，Google分享了两篇论文，一个是分布式存储，稍后是分布式计算，但是Google并没有释放出源代码，该组织依据分布式存储的论文，做出了hadoop，实现了分布式存储，稍后Yahoo继续维护hadoop hdfs以及研发了mapreduce实现。

hadoop当前发展如何

hadoop当前版本3.0.0 alpha，特点，可以运行3台namenode和5台journalnode。

hadoop的技术术语有哪些

hdfs。分布式存储。将一个文件分成若干chunk，进行分布式存储，并且有replication，默认是3，用来提高防单点，namenode负责维护chunk的位置信息，或者叫做元数据信息。分布式文件系统的概念也不难理解，传统的存储介质是硬盘，格式化后会有inode用于文件在磁盘的位置，然后就是存储数据；hdfs就是将inode和data进行了分离，namenode作为元数据（inode）的存储，datanode作为data进行存储。

mapreduce。分布式计算。由于数据是分散存储在一批机器里面的，所以分布式计算也就是把需求者的一个计算任务，分解成很多小任务（map），最后再合并结果（reduce）。

hadoop如何部署

部署分为单机，也就做伪分布式；另外一种就是分布式。前者主要用于学习和研究hadoop的功能，消耗资源小；后者主要用于生产环境部署，包括防单点和运行速度快。

hadoop如何维护

namenode的维护。主要是内存，cpu。
datanode的维护。主要是存储容量，如果datanode上面也在运行jobtracker，那么需要注意网络、内存、cpu。

过去有没有遇到过hadoop运维中棘手的问题

（印象记忆，准确度需核实）THP transparent huge page。CentOS系统在6之后引入了THP的概念，主要是同样的内存，用多少page多少address代表同样一块内存，但是在hadoop环境下，会造成系统负载升高，禁用后系统性能得到提升。CentOS 6.5之后该THP默认就是禁用的了。

TCP Abort问题。
这里写图片描述
在晚高峰期间，hadoop namenode会记录一些连接超时的现象出现，有一次甚至影响到了集群的稳定，发生了切换，经过一周的排查，最终锁定由于网络流量过载，导致namenode等重要节点之间的通信出现TCP Aborted现象。该机制也就是TCP的错误重传机制。当一个数据包由数据源发出，经过交换机上联以及核心之后到到目的地，由于datanode job之间的流量造成交换机网络上联出现瓶颈，造成namenode通信丢包，情况严重，最终导致namenode发生切换。该问题在上联升级到80Gbps之后得到有效缓解。