- 博客(14)
- 资源 (8)
- 收藏
- 关注
原创 第133讲:Hadoop集群监控Ganglia架构设计和运行机制详细解析学习笔记
第133讲:Hadoop集群监控Ganglia架构设计和运行机制详细解析学习笔记可监控和显示集群中节点的各种状态信息,如CPU/内存、磁盘利用率,IO负载,网络流量等。ganglia可将历史数据以曲线形式非常友好地以php页面形式展现,本身有很好的扩展性,允许用户加入自己想监控的信息。要监控特殊信息时方便。下图是ganglia架构图: ganglia包含几个部分,这几个部分间通
2015-11-15 22:49:34 917
原创 第132讲:Hadoop集群监控:日志、Metrics学习笔记
第132讲:Hadoop集群监控:日志、Metrics学习笔记一般用第三方工具,因为有针对性,可视化更好。监控的目标是检测集群,在什么时候没有提供需要的服务。hadoop最需要监控的是namenode,secondarynamenode,resourcemanager等。当然也要监控datanode和nodemanager。依据日志可以发现系统的发生的事件。从日志角度讲默认日志信息
2015-11-15 18:37:54 863
原创 第131讲:Hadoop集群管理工具均衡器Balancer 实战详解学习笔记
第131讲:Hadoop集群管理工具均衡器Balancer 实战详解学习笔记为什么需要均衡器呢?随着集群运行,具体hdfs各个数据存储节点上的block可能分布得越来越不均衡,会导致运行作业时降低mapreduce的本地性。分布式计算中精髓性的一名话:数据不动代码动。降低本地性对性能的影响是致使的,而且不能充分利用集群的资源,因为导致任务计算会集中在部分datanode上,更易导致故障
2015-11-15 18:16:05 783
原创 第129讲:Hadoop集群管理工具fsck实战详解学习笔记
第129讲:Hadoop集群管理工具fsck实战详解学习笔记是用检查hdfs具体文件、文件夹的健康状况的。这个工具帮助我们检查hdfs中文件在datanode中缺失的块及过程或过少的replication复本的内容。hadoop fsck PATH会从给定路径循环遍历文件系统中的内容,但此时访问的是namenode,而不是datanode,对于检查过的文件都会打印点。文件在na
2015-11-15 16:23:08 912
原创 第128讲:Hadoop集群管理工具dfsadmin实战详解学习笔记
第128讲:Hadoop集群管理工具dfsadmin实战详解学习笔记通过dfsadmin可以查看hdfs的一些信息也可以执行一些管理操作。要想使用dfsadmin需要有管理员权限,因为dfsadmin可以修改hdfs的内容。使用hadoop dfsadmin命令可以显示帮助 。hadoop dfsadmin -report 统计信息,可以查看 datanode的IP,心跳信息等。
2015-11-15 15:22:03 1912 1
原创 第127讲:Hadoop集群管理之安全模式解析及动手实战学习笔记
第127讲:Hadoop集群管理之安全模式解析及动手实战学习笔记hadoop在启动时namenode会把fsimage加载进内存,同时和edits内容合并,以此建立整个文件系统的元数据的镜像(内存级别),所以客户端可以通过namenode访问文件系统的信息。完成后变成一个新的fsimage,这个过程是namenode自已完成的,同时会建立一个新的edits。这时namenode需要开始监听rp
2015-11-15 12:54:29 865
原创 第126讲:Hadoop集群管理之Datanode目录元数据结构详解学习笔记
第126讲:Hadoop集群管理之Datanode目录元数据结构详解学习笔记namenode是管理hdfs文件系统的元数据datanode是负责当前节点上的数据的管理,具体目录内容是在初始阶段自动创建的。在用hdfs dfs namenode format时并没有对datanode进行format。在datanode中目录是按文件信息存储的。datanode存在于具体节点上的had
2015-11-14 20:37:16 1061
原创 第125讲:Hadoop集群管理之SecondaryNamenode目录元数据结构详解及其内幕机制学习笔记
第125讲:Hadoop集群管理之SecondaryNamenode目录元数据结构详解及其内幕机制学习笔记在hadoop-2.6.0/dfs目录下可以看到name文件夹和namesecondary文件夹。namesecondary文件夹即是secondarynamenode。进入namesecondary/current文件夹思考以看到edits,fsimage,VERSION,和na
2015-11-14 19:41:12 538
原创 第124讲:Hadoop集群管理之fsimage和edits工作机制内幕详解学习笔记
第124讲:Hadoop集群管理之fsimage和edits工作机制内幕详解学习笔记客户端对hdfs进行写文件时会首先被记录在edits文件中。edits修改时元数据也会更新。每次hdfs更新时edits先更新后客户端才会看到最新信息。fsimage:是namenode中关于元数据的镜像,一般称为检查点。一般开始时对namenode的操作都放在edits中,为什么不放在fsim
2015-11-13 23:44:21 1170
原创 第123讲:Hadoop集群管理之Namenode目录元数据结构详解学习笔记
第123讲:Hadoop集群管理之Namenode目录元数据结构详解学习笔记hadoop-2.x的集群管理与hadoop-1.x有很大不同hdfs-site.xml:dfs.replicationdfs.namenode.name.dir 存放namenode元数据信息可以配置多个目录,这些目录完全相同,一个损坏不影响hdfs上的数据。hadoop-2.6.0/dfs/n
2015-11-12 22:36:43 736
原创 第122讲:实战WordCount测试Hadoop集群环境学习笔记
第122讲:实战WordCount测试Hadoop集群环境学习笔记WordCount是对众多文件中每一个文件中每一个单词出现次数进行统计。每一个并行单位都是mapper,mapper会对自己处理的split进行单词计数,最后reducer会对mapper结果再次进行全局统计,最后得出每一个单词在所有文件中出现的次数。WordCount在hadoop-2.6.0中的share/hadoo
2015-11-12 22:03:51 607
原创 第121讲:Hadoop集群的格式化、集群运行实战解析等学习笔记
第121讲:Hadoop集群的格式化、集群运行实战解析等学习笔记本讲主要讲解hadoop集群格式化、集群运行实战1.官网讲的格式化:Hadoop StartupTo start a Hadoop cluster you will need to start both the HDFS and YARN cluster.The first time you bring up HD
2015-11-09 19:59:29 1261
原创 第120讲:Hadoop的MapReduce和Yarn的配置实战详解学习笔记
第120讲:Hadoop的MapReduce和Yarn的配置实战详解学习笔记本讲主要讲解MapReduce和Yarn的配置方法核心配置有两个:mapreduce-site.xml和yarn-site.xml1.MapReduce配置:ParameterValueNotesmapreduce.framework.name
2015-11-09 19:58:02 1119
原创 第119讲:HDFS的配置以及安全高效的HDFS配置最佳实践学习笔记
第119讲:HDFS的配置以及安全高效的HDFS配置最佳实践学习笔记安全和高效是中高级用户关心的。core-site.xml和hdfs-site.xml是hadoop最主要的配置文件。core-site.xml中fs.defaults是namenode的uri。就是文件系统的uri,也就是文件系统的要目录。hdfs-site.xml中的dfs.namenode.name.dir
2015-11-09 19:56:29 692
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人