调研--数据集Google描述

最新推荐文章于 2025-02-19 14:01:22 发布

孙维恪

最新推荐文章于 2025-02-19 14:01:22 发布

阅读量2.4k

点赞数 3

分类专栏：时间序列预测文章标签： hadoop

本文链接：https://blog.csdn.net/sinat_33211329/article/details/116451651

版权

时间序列预测专栏收录该内容

9 篇文章

订阅专栏

link https://github.com/google/cluster-data

Google数据集描述 location

-----------------------------------------------------------------------------------------------------

谷歌集群数据 clusterdata-2011-2 主要包括六个文件，压缩大小为41G

整个数据集包含了大约12,000台机器的负载数据，共运行了超过670,000个应用，大约4,000万个任务

所有的任务倾向于更短小并且带有较多的交互操作

文件目录如下：

schema.csv 摘要文件

job_events

task_events

machine_events

machine_attributes

task_constraints

task_usage

------------------------------------------------------------------------------------------------------

Machine events:

1. timestamp 2. machine ID 3. event type 4. platform ID 5. capacity: CPU 6. capacity: memory

（1.时间戳2.机器ID 3.事件类型4.平台ID 5.容量：CPU 6.容量：内存）

其中时间戳的单位是微秒，事件类型属性值为0（ADD）、1（Remove）、2（Update），平台ID为不透明字符串。

Machine attributes:

1. timestamp 2. machine ID 3. attribute name 4. attribute value 5. attribute deleted

（1.时间戳2.机器ID 3.属性名称4.属性值5.属性已删除）

属性名称为不透明字符串，属性值是一个数字或者字符串，属性删除是一个布尔值，指示属性是否被删除

Job events :

1. timestamp 2. missing info 3. job ID 4. event type 5. user name 6. scheduling class 7. job name 8. logical job name

(1.时间戳2.缺少信息3.作业ID 4.事件类型5.用户名6.调度类7.作业名8.逻辑作业名)

其中event type属性值为0--8，分别代表： 0提交，1调度，2逐出（被抢占），3失败，4完成，5杀死，6丢失，7有待更新，8更新运行。

调度类型，该类粗略地表示作业的延迟敏感程度。调度类型由一个数字表示，3表示一个对延迟比较敏感的作业，0表示一个非生产任务（例如:非关键业务分析等）。请注意，调度类不是优先级，尽管对延迟比较敏感任务往往有较高的任务优先级。调度类型影响到资源访问的机器本地策略。优先级确定任务是否安排在机器上。

task events:

1. timestamp 2. missing info 3. job ID 4. task index - within the job 5. machine ID 6. event type 7. user name 8. scheduling class 9. priority 10. resource request for CPU cores 11. resource request for RAM 12. resource request for local disk space 13. different-machine constraint

(1.时间戳2.缺少信息3.作业ID 4.作业索引-作业内5.机器ID 6.事件类型7.用户名8.调度类9.优先级10. CPU内核的资源请求11.资源请求 RAM 12.本地磁盘空间的资源请求13.不同机器的约束)

Job ID 和user name 有对应关系，一个作业ID只对应一个用户名，一个用户名对应多个作业ID。task event 属性是一个数值，代表将一个Job 拆分成了多少个Task，也可以看成并行度，因为这些task 一般都是并行运行在不同机器上。 priority 属性代表了每个任务的优先级别，数值为0--11，分成了五种优先级：

infrastructure (11)—这是trace中的最高（最有权获取资源）优先级，并且占记录的磁盘I / O的大部分，因此我们推测它包括一些存储服务；
monitoring (10)
normal production (9)—这是标记为“生产”的优先级最低（且占用最多的）。 trace供者指出，这个优先级及以上的作业不应该因机器资源过度分配而被驱逐
other (2-8) — 我们推测这些优先级是由批处理作业主导的；
gratis (free) (0-1) — trace供者指出，任务在这些优先级使用的资源通常不收费。

task constraints :

1. timestamp 2. job ID 3. task index 4. attribute name -- corresponds to machine attribute table 5. attribute value -- either an opaque string or an integer or the empty string 6. comparison operator

（1.时间戳2.作业ID 3.任务索引4.属性名称-对应于计算机属性表5.属性值-不透明字符串或整数或空字符串6.比较运算符）

其中comparison operator，有时为数字，有时为字符串，官方给出的比较原则如下：

小于(2)，大于(3)：将机器属性表示为整数(或0，如果属性不存在)，然后将其与提供的属性值进行比较。这些比较严格小于和严格大于;

等于(0)，不等于(1)：机器属性表示为字符串(或空字符串如果它不存在的话),然后比较所提供的属性值;

task resource usage

1. start time of the measurement period 2. end time of the measurement period 3. job ID 4. task index 5. machine ID 6. mean CPU usage rate 7. canonical memory usage 8. assigned memory usage 9. unmapped page cache memory usage 10. total page cache memory usage 11. maximum memory usage 12. mean disk I/O time 13. mean local disk space used 14. maximum CPU usage 15. maximum disk IO time 16. cycles per instruction (CPI)

（1.测量周期的开始时间2.测量周期的结束时间3.作业ID 4.任务索引5.机器ID 6.平均CPU使用率7.规范的内存使用率8.分配的内存使用率9.未映射的页面缓存使用情况10.页面高速缓存内存使用总量11.最大内存使用情况12.平均磁盘I / O时间13.平均使用本地磁盘空间14.最大CPU使用情况15.最大磁盘IO时间16.每条指令周期（CPI））

这个记录比较重要，可以通过这个记录数据看出作业执行过程