和同事花了1天时间把hadoop和hbase的所有metric全部解释了一遍,记录一下:
系统参数监控metrics
load_one 每分钟的系统平均负载
load_fifteen 每15分钟的系统平均负载
load_five 每5分钟的系统平均负载
boottime 系统启动时间,精确到秒
bytes_in 网络接收速度,单位bytes/sec
bytes_out 网络发送速度,单位bytes/sec
cpu_aidle 启动的空闲CPU百分比
cpu_idle 空闲CPU百分比
cpu_nice 用户进程空间内改变过优先级的进程占用CPU百分比
cpu_num CPU线程总数
cpu_report CPU使用情况汇总报告
cpu_speed CPU速度(MHz)
cpu_system 内核空间占用CPU百分比
cpu_user 用户空间占用CPU百分比
cpu_wio CPU空闲时的最大I/O请求
proc_total 进程总数
swap_free 空闲交换分区空闲大小
swap_total 空闲交换分区大小(KBs显示)
disk_free 剩余磁盘空间
disk_total 磁盘总大小
ip_address ip地址列表
last_reported 最后一次报告时间
load_report 系统负载汇总报告
location 定位信息(经纬度)
machine_type 系统版本(X86或64)
mem_buffers 内核缓存的内存总量
mem_cached 缓存内存大小
mem_free 空闲内存大小
mem_report 内存汇总报告
mem_shared 共享内存大小
mem_total 物理内存总量(KBs显示)
os_name 操作系统名称
os_release 操作系统版本
pkts_in 每秒进来的包数
pkts_out 每秒出去的包数
proc_run 运行的进程总数
packet_report 包汇总报告
network_report 网络汇总报告
namenode监控metrics
dfs.namenode.SafeModeTime safemode时间
dfs.namenode.AddBlockOps 写入block次数
dfs.namenode.BlockReportAvgTime block report的平均时间次数
dfs.namenode.BlockReportNumOps block report的次数
dfs.namenode.CreateFileOps 创建文件次数
dfs.namenode.DeleteFileOps 删除文件次数
dfs.namenode.FileInfoOps 查看文件info次数
dfs.namenode.FilesCreated 已创建的文件个数
dfs.namenode.FilesDeleted 已删除的文件个数
dfs.namenode.FilesInGetListingOps getlist操作次数
dfs.namenode.FilesRenamed 重命名文件个数
dfs.namenode.FsImageLoadTime fsimage加载时间
dfs.namenode.GetAdditionalDatanodeOps GetAdditionalDatanode操作次数
dfs.namenode.GetBlockLocations 获取block位置操作次数
dfs.namenode.GetListingOps getListing操作次数
dfs.namenode.SyncsAvgTime 将操作同步为editlog的平均时间
dfs.namenode.SyncsNumOps 将操作同步为editlog的次数
dfs.namenode.TransactionsAvgTime transcation的平均时间
dfs.namenode.TransactionsBatchedInSync transcation在flush时发现已经被sync的情况的次数
dfs.namenode.TransactionsNumOps transcation的个数
datanode参数监控metrics
dfs.datanode.BlockReportsAvgTime 向namenode汇报block的平均时间
dfs.datanode.BlockReportsNumOps 向namenode汇报block的次数
dfs.datanode.BlocksRead 从硬盘读块的次数
dfs.datanode.BlocksRemoved 删除块的个数
dfs.datanode.BlocksReplicated 备份块操作的个数
dfs.datanode.BlocksVerified 验证块的次数