PAKDD2020:阿里巴巴算法大赛冠军思路

PAKDD2020 阿里巴巴智能运维算法大赛

第一名思路

本篇文章我们介绍刚刚结束的PAKDD2020阿里巴巴智能运维算法大赛的思路以及一些核心内容(以PPT的形式展示了),有兴趣的朋友可以去天池上阅读原题目,再回来看ppt思考。个人认为该比赛的难点主要有如下四点:

  1. 原始数据相对较大,如果把原始数据全部载入到内存的话会占用100G+ 的内存,这对于很多朋友来说基本是没法忍受的,如果再继续做特征的话没有500G内存的服务器是跑不动的;

  2. 建模的方式,这一个赛题建模的方式可以带来的提升还是很明显的,如何建模才能更加充分的使用数据也是一大难点;

  3. 如何降低数据的噪音,这里我们采用了和时间序列建模类似的策略,滚动标签建模降低噪音影响;

  4. 如何进行后处理提交,因为该题目的评分策略的关系,后处理的方式影响也较大, 此处我们依据训练集的分布设计了贪心的策略;

    • 评分指标细节: 预测为正常盘的结果无需写到上传文件中。单块盘可能存在多个预测结果,但在评估过程中只考虑每块盘的最早一次预测为故障的日期。

    • 例如, 硬盘disk_1分别在2018-08-15和2018-08-19两次被预测出未来30天内可能会发生故障,但在模型评估时只会选用2018-08-15那天的预测结果。

       

“在看,为沉迷学习点赞

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值