科大讯飞---温室温度预测挑战赛

我会像蜗牛一样努力

于 2021-09-26 21:16:54 发布

阅读量932

点赞数 2

分类专栏：机器学习数据挖掘文章标签：线性代数机器学习神经网络

本文链接：https://blog.csdn.net/qq_40128284/article/details/120495193

版权

机器学习同时被 2 个专栏收录

27 篇文章 9 订阅

订阅专栏

数据挖掘

7 篇文章 0 订阅

订阅专栏

一、赛题介绍：时间序列问题

比赛网址

数据集：

初赛

训练集：2019年3月14日---->2019年4月3日，每分钟一条数据，接近半个月的数据。

测试集：后10天的数据，每30分钟一条数据。

数据预处理：

1.训练集中label缺失的样本去掉。

2.训练集中其他特征缺失比例比较小，且相邻2个样本关联程度比较高，因此直接选择线性填充。

3.异常值截断（假设数据服从正态分布，使用3σ法则进行截断，可用前后均值替换）
       upper = data_df[f].mean()+ 3 * data_df[f].std()

       lower = data_df[f].mean()- 3 * data_df[f].std()

特征工程：

1对小时粒度的基本聚合特征------->存在特征穿越

group_feats = []
for f in tqdm(['outdoorTemp', 'outdoorHum', 'outdoorAtmo', 'indoorHum', 'indoorAtmo']):
    data_df['MDH_{}_medi'.format(f)] = data_df.groupby(['month', 'day', 'hour'])[f].transform('median')
    data_df['MDH_{}_mean'.format(f)] = data_df.groupby(['month', 'day', 'hour'])[f].transform('mean')
    data_df['MDH_{}_max'.format(f)] = data_df.groupby(['month', 'day', 'hour'])[f].transform('max')
    data_df['MDH_{}_min'.format(f)] = data_df.groupby(['month', 'day', 'hour'])[f].transform('min')
    data_df['MDH_{}_std'.format(f)] = data_df.groupby(['month', 'day', 'hour'])[f].transform('std')

2.基本交叉特征---除,差

for f1 in tqdm(['outdoorTemp', 'outdoorHum', 'outdoorAtmo', 'indoorHum', 'indoorAtmo']):
    for f2 in ['outdoorTemp', 'outdoorHum', 'outdoorAtmo', 'indoorHum', 'indoorAtmo'] :
        if f1 != f2:
            colname = '{}_{}_ratio'.format(f1, f2)
            data_df[colname] = data_df[f1].values / data_df[f2].values

3.对月份特征进行one_hot编码，并基于月份特征构造季度特征，并one_hot。

4. 特征离散化

for f in ['outdoorTemp', 'outdoorHum', 'outdoorAtmo', 'indoorHum', 'indoorAtmo']:
    data_df[f + '_20_bin'] = pd.cut(data_df[f], 20, duplicates='drop').apply(lambda x: x.left).astype(int)
    data_df[f + '_50_bin'] = pd.cut(data_df[f], 50, duplicates='drop').apply(lambda x: x.left).astype(int)
    data_df[f + '_100_bin'] = pd.cut(data_df[f], 100, duplicates='drop').apply(lambda x: x.left).astype(int)
    data_df[f + '_200_bin'] = pd.cut(data_df[f], 200, duplicates='drop').apply(lambda x: x.left).astype(int)

5.统计每个分桶中特征的统计特征max,mean,min,median。--------存在特征穿越

for f1 in tqdm(['outdoorTemp_20_bin', 'outdoorHum_20_bin', 'outdoorAtmo_20_bin', 'indoorHum_20_bin', 'indoorAtmo_20_bin']):
    for f2 in ['outdoorTemp', 'outdoorHum', 'outdoorAtmo', 'indoorHum', 'indoorAtmo']:
        data_df['{}_{}_medi'.format(f1, f2)] = data_df.groupby([f1])[f2].transform('median')
        data_df['{}_{}_mean'.format(f1, f2)] = data_df.groupby([f1])[f2].transform('mean')
        data_df['{}_{}_max'.format(f1, f2)] = data_df.groupby([f1])[f2].transform('max')
        data_df['{}_{}_min'.format(f1, f2)] = data_df.groupby([f1])[f2].transform('min')

6. 一小时前对应分钟同期值和差分（使用shift操作）

# 一小时前同期值
for f in tqdm(['outdoorTemp','outdoorHum','outdoorAtmo','indoorHum','indoorAtmo']):
    train_df['ago_1hour_{}'.format(f)] = train_df[f].shift(1*60)
    test_df['ago_1hour_{}'.format(f)] = test_df[f].shift(1*2)

7. 半小时前数据滑窗均值（使用rolling操作）

for f in tqdm(['outdoorTemp','outdoorHum','outdoorAtmo','indoorHum','indoorAtmo']):
    train_rolling = train_df[f].rolling(window=30)
    train_df['rolling_{}_mean'.format(f)] = train_rolling.mean()
    test_rolling = test_df[f].rolling(window=2)
    test_df['rolling_{}_mean'.format(f)] = test_rolling.mean()

8. 一小时前同期值基本交叉特征

for f1 in tqdm(['ago_1hour_outdoorTemp','ago_1hour_outdoorHum','ago_1hour_outdoorAtmo','ago_1hour_indoorHum','ago_1hour_indoorAtmo']):  
    for f2 in ['ago_1hour_outdoorTemp','ago_1hour_outdoorHum','ago_1hour_outdoorAtmo','ago_1hour_indoorHum','ago_1hour_indoorAtmo']:
        if f1 != f2:
            colname = 'ago_1hour_{}_{}_ratio'.format(f1, f2)
            data_df[colname] = data_df[f1].values / data_df[f2].values

9. 历史信息提取——前2天同小时基本特征(包括初始特征和交叉特征)的均值（dt）

# 2days历史信息提取
data_df['dt'] = data_df['day'].values + (data_df['month'].values - 3) * 31
for f in tqdm(['outdoorTemp','outdoorHum','outdoorAtmo','indoorHum','indoorAtmo']+ratio_feats):
    tmp_df = pd.DataFrame()
    for t in range(15, 45):
        tmp = data_df[data_df['dt'].isin([t-1,t-2])].groupby(['hour'])[f].agg({'mean'}).reset_index()
        tmp.columns = ['hour','hit2days_{}_mean'.format(f)]
        tmp['dt'] = t
        tmp_df = tmp_df.append(tmp)
    data_df = data_df.merge(tmp_df, on=['dt','hour'], how='left')

构建模型------不能K折交叉验证，容易穿越

岭回归
Xgboost
LightGBM

（其中树模型，构建标签的时候，由于室内温度和室外温度极其相关，因此使用室内温度-室外温度用作标签）

复赛

训练集：2020年1月13日---->2020年1月22日，每分钟一条数据，接近10天的数据。

训练集：2020年2月1日---->2020年2月5日，每2小时一条数据。

嘴爷Top3的分享

我会像蜗牛一样努力

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
科大讯飞---温室温度预测挑战赛

一、赛题介绍：时间序列问题比赛网址数据集：初赛训练集：2019年3月14日---->2019年4月3日，每分钟一条数据，接近半个月的数据。测试集：后10天的数据，每30分钟一条数据。数据预处理：1.训练集中label缺失的样本去掉。2.训练集中其他特征缺失比例比较小，且相邻2个样本关联程度比较高，因此直接选择线性填充。3.异常值截断（假设数据服从正态分布，使用3σ法则进行截断，可用前后均值替换）upper = data_df...
复制链接

扫一扫