kdd 数据挖掘竞赛调研

常隆涛vitton

于 2023-11-08 21:23:15 发布

阅读量819

点赞数 7

文章标签：数据挖掘人工智能

本文链接：https://blog.csdn.net/m0_46581836/article/details/134298924

版权

kdd 数据挖掘

KDD官网

KDD CUP竞赛是由ACM 的数据挖掘及知识发现专委会（SIGKDD）主办的数据挖掘研究领域的国际赛事，从1997年开始，每年举办一次，被称为数据挖掘领域的“世界杯”，是该领域水平最高、最有影响力的顶级赛事。2022年KDD CUP 共有2个赛题，分别是有百度承办的风电功率预测赛道和亚马逊承办的商品搜索赛道。

社交网络中的个性化推荐系统,根据腾讯微博中的用户属性（User Profile）、SNS社交关系、在社交网络中的互动记录（retweet、comment、at）等，以及过去30天内的历史item推荐记录，来预测接下来最有可能被用户接受的推荐item列表

搜索广告系统的pTCR点击率预估,提供用户在腾讯搜索的查询词（query）、展现的广告信息（包括广告标题、描述、url等），以及广告的相对位置（多条广告中的排名）和用户点击情况，以及广告主和用户的属性信息，来预测后续时间用户对广告的点击情况

2011

音乐评分预测,根据用户在雅虎音乐上item的历史评分记录，来预测用户对其他item（包括歌曲、专辑等）的评分和实际评分之间的差异RMSE（最小均方误差）。同时提供的还有歌曲所属的专辑、歌手、曲风等信息
识别音乐是否被用户评分,每个用户提供6首候选的歌曲，其中3首为用户已评分数据，另3首是该用户未评分，但是出自用户中整体评分较高的歌曲。歌曲的属性信息（专辑、歌手、曲风等）也同样提供。参赛者给出二分分类结果（0/1分类），并根据整体准确率计算最终排名

2016

预测谁的论文被采用的概率最多：衡量研究机构的影响力

2014

一个在线慈善机构，可以通过学校捐款轻松帮助有需要的学生。预测学生能否得到A+ 的资金请求

2013

确定这个作者是否撰写了给定的论文，作者姓名的模糊性。一方面，有许多作者以自己的名字的多种变体发表文章。另一方面，不同的作者可能有相似的甚至相同的名字。因此，姓名不明确的作者的个人资料往往包含噪音，导致论文被错误地分配给他或她。这项 KDD Cup 任务要求参赛选手确定作者简介中的哪些论文真正由这个作者撰写。

kdd cup2022风电预测赛道

官方demo代码

赛事介绍界面

竞赛报名官网

1、任务定义

数据集是龙源电力集团有限公司独特的空间动态风力预测数据集：SDWPF，是从风电场的监控和数据采集 (SCADA) 系统收集的。 SCADA 数据每 10 分钟从风电场中的每个风力发电机采样一次，该风电场由 134 台风力发电机组成，共245天数据。数据集包括影响风力发电的关键外部特征，例如风速、风向和外部温度；以及重要的内部特征，例如内部温度、机舱方向和叶片角度，可以指示每个风力涡轮机的运行状态。
每台风力发电机可以单独产生风能，风电场的输出功率是所有风力发电机的总和。数据集中发布了风电场中所有风机的相对位置，以表征风机之间的空间相关性。
和之前的WPF不同的地方在于，此竞赛任务有提供两个独特的数据。

空间分布：本次竞赛将提供给定风电场的所有风力涡轮机的相对位置，用于建模风力涡轮机之间的空间相关性。

动态上下文：提供由每个风力涡轮机监控的重要天气情况和涡轮机内部上下文，以促进预测任务。

要在48小时之内解决风力发电预测问题，给出今天下午五点之前的风电场和相关风力涡轮机的一系列历史记录，需要预测从今天下午五点到后天下午五点的风力发电。需要每10 分钟输出一次预测值，也就是预测未来288（48小时*60分钟/10分钟）个风力发电时间序列。
数据详情

当数据存在以下情况时，该时刻的功率值会被过滤，不参与评估：

零值：if Patv < 0, then Patv = 0
缺失值：Nan
未知值：(Patv <=0 and Wspd > 2.5) or (Pab1 > 89°or Pab2 > 89°or Pab3 > 89°)
异常值: (Ndir > 720° or Ndir < -720°) or (Wdir > 180° or Wdir < -180°)

在这里插入图片描述

2、评估方法

风速与功率成正相关，风速越大功率越大；叶片角度与功率成负相关，叶片角度小时迎风面积大功率越大。但是从竞赛的给出的实际数据来看，由于风机人为控制、测量误差等因素，在某些情况下功率产生比理论值有较大差距。相同风速下叶片角度越大功率越低，控制叶片角度等同于控制风机的受风面积。1号风机具有特殊性，从叶片角度数据上自始至终没有控制，角度都很小，但是存在部分高风速低功率的数据。但在评测样例数据中1号风机存在叶片角度控制。
RMSE （均方根误差）和MAE （平均绝对误差）的平均值用作主要评估分数。
需要预测风电场的288个时间序列。评估每个风力涡轮机的预测结果，然后将预测分数相加作为模型的最终分数

在这里插入图片描述

3、高分方案

第一名。海康威视研究院，浙江大学，用的FDSTT模型

在这里插入图片描述

(1) Multi-relational Graph Constructor：该模块负责抽取多视角的图信息，用于后续的时空深度学习。主要有两个视角：空间图信息（以地理位置的欧式距离，找出top-K最近邻点构建空间图）和语义图信息（求风速一阶差分值，求每时刻两两风机之间的差分乘积，再求和作为两风机间的语义相似性，最后找出top-K最近邻点构建语义图）。

发现风力涡轮机之间的空间距离越小，功率相关性越大。然而，当空间距离较大时，一些风力涡轮机的功率相似性也非常强。

(2) DMST module：DMST: Deep Multi-relational Spatio-Temporal Network。它将当前风机i的近邻风机们的风速合并进来作为风机i的特征。另外，还用可学习的embedding matrix乘one-hot风机向量获取风机embedding。 DMST是以GRU为核心单元的Seq2Seq模型，采用递归式预测。

(3) ST-Tree module：ST-Tree：Spatio-Partitioned Time-Phased Tree Model。它算每个风机之间的皮尔逊系数，再用K-means聚类，在时间维度上，因为树模型仅支持单输出预测。为每个时间戳构建树模型将导致模型过多，并有模型过度拟合的风险。因此，通过分割时间步长来构建树模型。然后针对聚类的风机训练LightGBM，进行分段预测。

(4) Ensemble module：若当前风电功率多大或过小时，DMST预测线通常会很陡峭，这时直接使用ST-Tree负责短期预测，否则用ST-Tree和DMST的短期预测平均值。而中长期预测直接用DMST的结果。

实验结果，第一阶段第三名，第二阶段第二，第三阶段第一

MST预测线通常会很陡峭，这时直接使用ST-Tree负责短期预测，否则用ST-Tree和DMST的短期预测平均值。而中长期预测直接用DMST的结果。

实验结果，第一阶段第三名，第二阶段第二，第三阶段第一

在这里插入图片描述

常隆涛vitton

关注

7
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
kdd 数据挖掘竞赛调研

SDWPF，是从风电场的监控和数据采集 (SCADA) 系统收集的。SCADA 数据每 10 分钟从风电场中的每个风力发电机采样一次，该风电场由 134 台风力发电机组成，共245天数据。数据集包括影响风力发电的关键外部特征，例如风速、风向和外部温度；以及重要的内部特征，例如内部温度、机舱方向和叶片角度，可以指示每个风力涡轮机的运行状态。每台风力发电机可以单独产生风能，风电场的输出功率是所有风力发电机的总和。数据集中发布了风电场中所有风机的相对位置，以表征风机之间的空间相关性。
复制链接

扫一扫