调研--数据集Google描述

link  https://github.com/google/cluster-data

Google数据集描述 location     

-----------------------------------------------------------------------------------------------------

谷歌集群数据 clusterdata-2011-2 主要包括六个文件,压缩大小为41G

    整个数据集包含了大约12,000台机器的负载数据,共运行了超过670,000个应用,大约4,000万个任务

所有的任务倾向于更短小并且带有较多的交互操作

文件目录如下:

schema.csv  摘要文件

job_events

task_events

machine_events

machine_attributes

task_constraints

task_usage

------------------------------------------------------------------------------------------------------

Machine events:

        1. timestamp  2. machine ID  3. event type  4. platform ID  5. capacity: CPU  6. capacity: memory

        (1.时间戳2.机器ID 3.事件类型4.平台ID 5.容量:CPU 6.容量:内存)

         其中时间戳的单位是微秒,事件类型属性值为0(ADD)、1(Remove)、2(Update),平台ID为不透明字符串。

Machine attributes:

        1. timestamp  2. machine ID  3. attribute name  4. attribute value  5. attribute deleted

        (1.时间戳2.机器ID 3.属性名称4.属性值5.属性已删除)

        属性名称为不透明字符串,属性值是一个数字或者字符串,属性删除是一个布尔值,指示属性是否被删除

Job events :

        1. timestamp  2. missing info  3. job ID  4. event type  5. user name  6. scheduling class  7. job name  8. logical job name

           (1.时间戳2.缺少信息3.作业ID 4.事件类型5.用户名6.调度类7.作业名8.逻辑作业名)

        其中event type属性值为0--8,分别代表: 0提交,1调度,2逐出(被抢占),3失败,4完成,5杀死,6丢失,7有待更新,8更新运行。

        调度类型,该类粗略地表示作业的延迟敏感程度。调度类型由一个数字表示,3表示一个对延迟比较敏感的作业,0表示一个非生产任务(例如:非关键业务分析等)。请注意,调度类不是优先级,尽管对延迟比较敏感任务往往有较高的任务优先级。调度类型影响到资源访问的机器本地策略。优先级确定任务是否安排在机器上。

task events:

        1. timestamp  2. missing info  3. job ID  4. task index - within the job  5. machine ID  6. event type  7. user name  8. scheduling class  9. priority  10. resource request for CPU cores  11. resource request for RAM  12. resource request for local disk space  13. different-machine constraint

        (1.时间戳2.缺少信息3.作业ID 4.作业索引-作业内5.机器ID 6.事件类型7.用户名8.调度类9.优先级10. CPU内核的资源请求11.资源请求 RAM 12.本地磁盘空间的资源请求13.不同机器的约束)

        Job ID 和user name 有对应关系,一个作业ID只对应一个用户名,一个用户名对应多个作业ID。task event 属性是一个数值,代表将一个Job 拆分成了多少个Task,也可以看成并行度,因为这些task 一般都是并行运行在不同机器上。   priority 属性代表了每个任务的优先级别,数值为0--11,分成了五种优先级:

  • infrastructure (11)—这是trace中的最高(最有权获取资源)优先级,并且占记录的磁盘I / O的大部分,因此我们推测它包括一些存储服务;
  • monitoring (10)
  • normal production (9)—这是标记为“生产”的优先级最低(且占用最多的)。 trace供者指出,这个优先级及以上的作业不应该因机器资源过度分配而被驱逐
  • other (2-8) — 我们推测这些优先级是由批处理作业主导的;
  • gratis (free) (0-1) — trace供者指出,任务在这些优先级使用的资源通常不收费。

 

task constraints :

        1. timestamp  2. job ID  3. task index  4. attribute name -- corresponds to machine attribute table  5. attribute value -- either an opaque string or an integer or the empty string  6. comparison operator

        (1.时间戳2.作业ID 3.任务索引4.属性名称-对应于计算机属性表5.属性值-不透明字符串或整数或空字符串6.比较运算符)

其中comparison operator,有时为数字,有时为字符串,官方给出的比较原则如下:

  •  小于(2),大于(3):将机器属性表示为整数(或0,如果属性不存在),然后将其与提供的属性值进行比较。这些比较严格小于和严格大于;
  • 等于(0),不等于(1):机器属性表示为字符串(或空字符串如果它不存在的话),然后比较所提供的属性值;

task resource usage

        1. start time of the measurement period  2. end time of the measurement period  3. job ID  4. task index  5. machine ID  6. mean CPU usage rate  7. canonical memory usage  8. assigned memory usage  9. unmapped page cache memory usage  10. total page cache memory usage   11. maximum memory usage  12. mean disk I/O time  13. mean local disk space used  14. maximum CPU usage  15. maximum disk IO time   16. cycles per instruction (CPI)

    (1.测量周期的开始时间2.测量周期的结束时间3.作业ID 4.任务索引5.机器ID 6.平均CPU使用率7.规范的内存使用率8.分配的内存使用率9.未映射的页面缓存 使用情况10.页面高速缓存内存使用总量11.最大内存使用情况12.平均磁盘I / O时间13.平均使用本地磁盘空间14.最大CPU使用情况15.最大磁盘IO时间16.每条指令周期(CPI))

      这个记录比较重要,可以通过这个记录数据看出作业执行过程

 

 

 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值