Hadoop技术资料汇总(不断更新中)

面试:你懂什么是分布式系统吗?Redis分布式锁都不会?>>>   hot3.png

这些资料都是我在工作中学习、解决问题的资料汇总,我不能保证这里罗列的所有资料对看到的人有用,但大部分都经过我的实际验证。在不断学习和实践过程中,我会不断更新和总结这些资料,同时欢迎大家留言交流。感谢这些资料的作者。

一、HDFS

1、集群安装:

Hadoop 2.6.0 HA高可用集群配置详解

2、NameNode:

HDFS NameNode内存全景

3、DataNode:

Hadoop--HDFS之DataNode

4、权限管理:

HDFS权限管理实践

5、数据平衡:

How does the HDFS balancer work internally?

HDFS Commands, HDFS Permissions and HDFS Storage

HORTONWORKS官方文档:Balancing in HDFS

6、问题汇总:

(1)Hadoop Non DFS Used大小问题:

Hadoop hdfs界面:Hadoop Non DFS Used大小问题

关于hadoop hdfs中Non DFS Used占用很大的问题分析处理

(2)小文件处理:

HDFS自定义小文件分析功能

HDFS文件目录list操作加速优化

(3)Namenode写Journalnode超时,导致Namenode挂掉的问题:

Namenode写Journalnode超时,导致Namenode挂掉的问题

java.io.IOException: Timed out waiting 20000ms for a quorum of nodes to respond

关于机房交换机故障导致HDFS NameNode挂掉的问题(续)

NameNode HA异常调查

Timed out waiting 20000ms for a quorum of nodes to respond

namenode gc导致的故障一例

Standby NameNode is faling and only one is running

(4)HDFS NameNode 重启优化

7、其他:

(1)Hadoop学习之路(十二)分布式集群中HDFS系统的各种角色

(2)监控相关:

HDFS Ports

hadoop指标项

NameNode Metrics

How to collect Hadoop metrics

二、YARN

1、调度队列:

Hadoop多用户资源管理–Fair Scheduler介绍与配置

Yarn公平调度器Fair Scheduler根据用户组分配资源池

YARN ResourceManager重启作业保留机制

2、NodeManager:

NodeManager节点自身健康状态检测机制

3、ResourceManger:

ResourceManger Restart

YARN资源本地化深度解析

4、监控:

yarn社区原生界面详解

5、问题汇总:

(1)资源不足、任务资源分配不合理、队列资源分配不合理引起的资源预留问题:

What is Memory reserved on Yarn

Aggregate Resource Allocation for a job in YARN

(2)任务kill:

YARN批处理方式kill Applications解决方案

(3)Flink实时计算集群:ZooKeeper闪断导致的YARN任务状态不一致引起的RM崩溃问题:

NullPointerException in RM HA enabled 3-node cluster

NPE happened when RM restart after CapacityScheduler queue configuration changed

Flink on YARN with HA enabled crashes all RMs on attempt restoration

6、其他:

查看YARN任务日志的几种方式

YARN ApplicationId的生成方式

Yarn: Application Id - How is it generated ?

三、集群维护

关于DataNode更改IP地址后所可能引发HDFS集群状态变化的分析

四、技术博客

lxw的大数据田地

过往记忆

Android路上的人

五、参考书籍

深度剖析Hadoop HDFS,林意群 著

Hadoop技术内幕:深入解析YARN架构设计与实现原理,董西成 著

大数据日知录,张俊林著

六、其他

1、Hadoop源码编译:

(1)环境准备:

brew install autoconf automake libtool

(2)编译:

Mac编译Hadoop源码

(3)问题解决:

Mac Missing tools.jar 解决方案

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Hadoop云盘项目是一个开源的分布式文件存储系统,它能够高效地存储和处理海量数据。Hadoop云盘项目的主要技术包括Hadoop分布式文件系统(HDFS)、MapReduce计算模型和Hive数据仓库等。本文将介绍Hadoop云盘项目的产品技术改进及更新成本。 一、产品技术改进 1. 安全性改进 在Hadoop云盘项目,数据的安全性一直是一个很重要的问题。因此,我们可以通过以下几种方式来改进安全性: (1)加强用户认证和授权:可以通过Kerberos认证,对用户进行身份验证和授权,确保只有授权用户才能访问数据。 (2)数据加密:在传输和存储数据时,可以采用加密算法,保证数据的机密性和完整性。 (3)安全审计:可以对数据访问进行审计,及时发现安全问题并采取相应的措施。 2. 性能改进 Hadoop云盘项目在存储和处理数据时,需要处理大量的数据和计算任务,因此性能一直是一个很重要的问题。可以通过以下几种方式来改进性能: (1)优化数据存储:可以对数据进行压缩和分块存储,减小存储空间的占用,提高数据读写性能。 (2)优化计算任务:可以对计算任务进行优化,减小计算复杂度,提高计算速度。 (3)增加集群节点:可以增加集群节点,提高集群的处理能力,提高整个系统的性能。 二、更新成本 Hadoop云盘项目的更新成本包括硬件成本、软件成本和人力成本三个方面。 1. 硬件成本 随着数据量的增加和性能的提高,需要更多的硬件资源来支持Hadoop云盘项目的运行。硬件成本主要包括服务器、存储设备、网络设备等。 2. 软件成本 Hadoop云盘项目的软件成本主要包括Hadoop分布式文件系统、MapReduce计算模型、Hive数据仓库等开源软件的使用和维护成本。此外,还需要购买一些商业软件,如监控和管理工具等。 3. 人力成本 Hadoop云盘项目的人力成本主要包括开发、测试、部署和维护等方面。需要拥有一支专业的技术团队,能够熟练掌握Hadoop相关技术,能够及时处理出现的问题。 总之,Hadoop云盘项目的产品技术改进及更新成本是一个综合性的问题,需要全面考虑各方面的因素,才能够达到最佳的效果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值