Transfer Learning based Failure Prediction for Minority Disks in Large Data Centers of Heterogene..

Transfer Learning based Failure Prediction for Minority Disks in Large Data Centers of Heterogeneous Disk Systems,ICPP,2019

作者 张霁 华中科技大学博士
想了解他?请戳这里

注:论文已上传至资源Transfer Learning based Failure Prediction for Minority Disks,需要的童鞋可免费下载

本篇论文首次将迁移学习应用于硬盘异常检测。

论文主要提出了基于”迁移学习+少数磁盘故障预测”的TLDFP模型。
主要采用了TrAdaBoost(权重调整的迁移学习方法)的思想。
显然这种迁移学习是基于实例化的迁移学习。

在这里插入图片描述

一、摘要及介绍

1、背景

大型数据中心的存储系统通常建立在数千甚至数百万个磁盘上,磁盘故障时有发生。如果丢失的数据无法恢复,磁盘故障可能导致严重的数据丢失,从而导致系统不可用甚至灾难性后果。在大规模的存储系统场景中,随着时间的推移,大量的新磁盘逐渐进入存储系统,替换出故障磁盘,导致存储系统由来自不同供应商的异构磁盘和来自同一供应商的不同型号的磁盘组成

2、研究对象

少数磁盘:来自不同供应商/来自同一供应商的不同型号的少量新磁盘

3、目标

降低丢失数据的风险,同时降低与恢复故障磁盘上的数据相关联的数据恢复成本

4、创新驱动

1) 由于缺乏足够的训练数据,传统的机器学习方法无法在由异构少数磁盘组成的演化存储系统中提供令人满意的预测性能,且会产生过拟合问题
2)磁盘固有的自监测、分析和报告技术(SMART)技术采用“阈值方法”,但仅实现3%-10%的故障检测率(FDR),0.1%的错误报警率(FAR)

5、方法

1)提出基于迁移学习的少数磁盘故障预测模型TLDFP
2)首先提出了一种基于KLD值的新方法来选择合适的多数磁盘模型
3)发展了一种基于KLD值的少数磁盘模型的方法进行跨磁盘模型的故障预测,随着不同磁盘模型逐渐被放入现实的存储系统中替换出故障磁盘,具有重要的实际应用价值

6、实验及结果

在两个真实数据集Backblaze和腾讯上的评估结果表明,与四种流行的基于传统机器学习的算法GBRT(迭代决策树)、RGF(正则化贪心森林)、SVM(支持向量)和RNN(循环神经网络)和两种最新转移学习方法SSDB和TLBN的预测模型相比,TLDFP能够提供更精确的结果。

SSDB:Mirela Madalina Botezatu and Ioana Giurgiu et al. 2016. Predicting Disk Replacement towards Reliable Data Centers. In Proceedings of the 22nd ACM SIGKDD,
San Francisco, CA, USA, August 13-17. 39–48.
TLBN: Pereira et al. 2017. Transfer Learning for Bayesian Networks with Application
on Hard Disk Drives Failure Prediction. In Brazilian Conference on Intelligent
Systems. 228–233.

二、主要内容

1、研究历程

在这里插入图片描述

2、相关背景知识

每个SMART属性项由五个元素组成,这些元素被描述为元组。

• ID:SMART属性的指定序号。

• 标准化:当前或上一个标准化值(大多数标准化为制造商特定算法使用原始值计算的最佳值253和最差值1之间的值)。

• 原始值:传感器和供应商提供的计数或物理状态对应的原始值。

• 阈值:磁盘报警故障时超过的阈值。

• 最差:给定属性的最低或最差值。

3、研究目标

(1) What:在故障预测方面,少数磁盘数据集的定义是什么?
在这里插入图片描述

(2) Why:为什么我们要使用迁移学习来预测少数磁盘的故障?
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

(3) How:如何利用迁移学习方法预测少数磁盘故障?
在这里插入图片描述
文章主要就是基于TrAdaBoost算法来不断的更新实例的权重,“打标签”依旧是采用分类器的方法。
在这里插入图片描述

(4) When:何时使用迁移学习进行少数磁盘故障预测?
在这里插入图片描述

4、实验部分

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

博主研究方向为时间序列的异常检测,欢迎交流。最近正在做磁盘时间序列的异常检测。正在复现本篇TrAdaBoost论文(采用BackBlaze磁盘数据)。知识浅薄,欢迎指正交流~

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 4
    评论
Machine learning is often used to build predictive models by extracting patterns from large datasets. These models are used in predictive data analytics applications including price prediction, risk assessment, predicting customer behavior, and document classification. This introductory textbook offers a detailed and focused treatment of the most important machine learning approaches used in predictive data analytics, covering both theoretical concepts and practical applications. Technical and mathematical material is augmented with explanatory worked examples, and case studies illustrate the application of these models in the broader business context. After discussing the trajectory from data to insight to decision, the book describes four approaches to machine learning: information-based learning, similarity-based learning, probability-based learning, and error-based learning. Each of these approaches is introduced by a nontechnical explanation of the underlying concept, followed by mathematical models and algorithms illustrated by detailed worked examples. Finally, the book considers techniques for evaluating prediction models and offers two case studies that describe specific data analytics projects through each phase of development, from formulating the business problem to implementation of the analytics solution. The book, informed by the authors' many years of teaching machine learning, and working on predictive data analytics projects, is suitable for use by undergraduates in computer science, engineering, mathematics, or statistics; by graduate students in disciplines with applications for predictive data analytics; and as a reference for professionals. Table of Contents Chapter 1 Machine Learning for Predictive Data Analytics Chapter 2 Data to Insights to Decisions Chapter 3 Data Exploration Chapter 4 Information-based Learning Chapter 5 Similarity-based Learning Chapter 6 Probability-based Learning Chapter 7 Error-based Learning Chapter 8 Evaluation Chapter 9 Case Study: Customer Churn Chapter 10 Case Study: Galaxy Classification Chapter 11 The Art of Machine Learning for Predictive Data Analytics Appendix A Descriptive Statistics and Data Visualization for Machine Learning Appendix B Introduction to Probability for Machine Learning Appendix C Differentiation Techniques for Machine Learning

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

疯狂java杰尼龟

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值