科大讯飞---温室温度预测挑战赛

一、赛题介绍:时间序列问题

比赛网址

数据集:

  •  初赛

训练集:2019年3月14日---->2019年4月3日,每分钟一条数据,接近半个月的数据。

 测试集:后10天的数据,每30分钟一条数据。

数据预处理:

1.训练集中label缺失的样本去掉。

2.训练集中其他特征缺失比例比较小,且相邻2个样本关联程度比较高,因此直接选择线性填充。

3.异常值截断(假设数据服从正态分布,使用3σ法则进行截断,可用前后均值替换) 

       upper = data_df[f].mean()+ 3 * data_df[f].std()

       lower = data_df[f].mean()- 3 * data_df[f].std()

特征工程:

  1. 1对小时粒度的基本聚合特征------->存在特征穿越
group_feats = []
for f in tqdm(['outdoorTemp', 'outdoorHum', 'outdoorAtmo', 'indoorHum', 'indoorAtmo']):
    data_df['MDH_{}_medi'.format(f)] = data_df.groupby(['month', 'day', 'hour'])[f].transform('median')
    data_df['MDH_{}_mean'.format(f)] = data_df.groupby(['month', 'day', 'hour'])[f].transform('mean')
    data_df['MDH_{}_max'.format(f)] = data_df.groupby(['month', 'day', 'hour'])[f].transform('max')
    data_df['MDH_{}_min'.format(f)] = data_df.groupby(['month', 'day', 'hour'])[f].transform('min')
    data_df['MDH_{}_std'.format(f)] = data_df.groupby(['month', 'day', 'hour'])[f].transform('std')
  1. 2.基本交叉特征---除,差
for f1 in tqdm(['outdoorTemp', 'outdoorHum', 'outdoorAtmo', 'indoorHum', 'indoorAtmo']):
    for f2 in ['outdoorTemp', 'outdoorHum', 'outdoorAtmo', 'indoorHum', 'indoorAtmo'] :
        if f1 != f2:
            colname = '{}_{}_ratio'.format(f1, f2)
            data_df[colname] = data_df[f1].values / data_df[f2].values
  1. 3.对月份特征进行one_hot编码,并基于月份特征构造季度特征,并one_hot。

  1. 4. 特征离散化
for f in ['outdoorTemp', 'outdoorHum', 'outdoorAtmo', 'indoorHum', 'indoorAtmo']:
    data_df[f + '_20_bin'] = pd.cut(data_df[f], 20, duplicates='drop').apply(lambda x: x.left).astype(int)
    data_df[f + '_50_bin'] = pd.cut(data_df[f], 50, duplicates='drop').apply(lambda x: x.left).astype(int)
    data_df[f + '_100_bin'] = pd.cut(data_df[f], 100, duplicates='drop').apply(lambda x: x.left).astype(int)
    data_df[f + '_200_bin'] = pd.cut(data_df[f], 200, duplicates='drop').apply(lambda x: x.left).astype(int)
  1. 5.统计每个分桶中特征的统计特征max,mean,min,median。--------存在特征穿越
for f1 in tqdm(['outdoorTemp_20_bin', 'outdoorHum_20_bin', 'outdoorAtmo_20_bin', 'indoorHum_20_bin', 'indoorAtmo_20_bin']):
    for f2 in ['outdoorTemp', 'outdoorHum', 'outdoorAtmo', 'indoorHum', 'indoorAtmo']:
        data_df['{}_{}_medi'.format(f1, f2)] = data_df.groupby([f1])[f2].transform('median')
        data_df['{}_{}_mean'.format(f1, f2)] = data_df.groupby([f1])[f2].transform('mean')
        data_df['{}_{}_max'.format(f1, f2)] = data_df.groupby([f1])[f2].transform('max')
        data_df['{}_{}_min'.format(f1, f2)] = data_df.groupby([f1])[f2].transform('min')
  1. 6. 一小时前对应分钟同期值和差分(使用shift操作)
# 一小时前同期值
for f in tqdm(['outdoorTemp','outdoorHum','outdoorAtmo','indoorHum','indoorAtmo']):
    train_df['ago_1hour_{}'.format(f)] = train_df[f].shift(1*60)
    test_df['ago_1hour_{}'.format(f)] = test_df[f].shift(1*2)
  1. 7. 半小时前数据滑窗均值(使用rolling操作)
for f in tqdm(['outdoorTemp','outdoorHum','outdoorAtmo','indoorHum','indoorAtmo']):
    train_rolling = train_df[f].rolling(window=30)
    train_df['rolling_{}_mean'.format(f)] = train_rolling.mean()
    test_rolling = test_df[f].rolling(window=2)
    test_df['rolling_{}_mean'.format(f)] = test_rolling.mean()
  1. 8. 一小时前同期值基本交叉特征
for f1 in tqdm(['ago_1hour_outdoorTemp','ago_1hour_outdoorHum','ago_1hour_outdoorAtmo','ago_1hour_indoorHum','ago_1hour_indoorAtmo']):  
    for f2 in ['ago_1hour_outdoorTemp','ago_1hour_outdoorHum','ago_1hour_outdoorAtmo','ago_1hour_indoorHum','ago_1hour_indoorAtmo']:
        if f1 != f2:
            colname = 'ago_1hour_{}_{}_ratio'.format(f1, f2)
            data_df[colname] = data_df[f1].values / data_df[f2].values
  1. 9. 历史信息提取——前2天同小时基本特征(包括初始特征和交叉特征)的均值(dt)
# 2days历史信息提取
data_df['dt'] = data_df['day'].values + (data_df['month'].values - 3) * 31
for f in tqdm(['outdoorTemp','outdoorHum','outdoorAtmo','indoorHum','indoorAtmo']+ratio_feats):
    tmp_df = pd.DataFrame()
    for t in range(15, 45):
        tmp = data_df[data_df['dt'].isin([t-1,t-2])].groupby(['hour'])[f].agg({'mean'}).reset_index()
        tmp.columns = ['hour','hit2days_{}_mean'.format(f)]
        tmp['dt'] = t
        tmp_df = tmp_df.append(tmp)
    data_df = data_df.merge(tmp_df, on=['dt','hour'], how='left')

构建模型------不能K折交叉验证,容易穿越

  • 岭回归
  • Xgboost
  • LightGBM

(其中树模型,构建标签的时候,由于室内温度和室外温度极其相关,因此使用室内温度-室外温度用作标签)

  • 复赛

训练集:2020年1月13日---->2020年1月22日,每分钟一条数据,接近10天的数据。

 训练集:2020年2月1日---->2020年2月5日,每2小时一条数据。

 

 嘴爷Top3的分享

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
单片机C51温室盆栽灌溉系统设计是一种基于C51单片机的智能温室盆栽自动灌溉系统。该系统通过传感器检测温室内的环境参数,如土壤湿度、温度和光照强度等,实时监测盆栽的生长环境。 系统的基本工作原理如下:首先,通过土壤湿度传感器检测土壤湿度,当湿度低于设定的阈值时,系统会自动启动灌溉装置。其次,通过温度传感器检测温室内的温度,当温度超过设定的范围时,系统会自动打开通风装置进行散热。最后,通过光照传感器检测光照强度,当光照条件不足时,系统会自动开启补光装置,为植物提供足够的光照。 系统设计中需要使用C语言进行编程,利用C51单片机的GPIO口和ADC模块进行传感器的读取和控制装置的操作。可以通过编写适当的算法来实现灌溉、通风和补光等功能,以满足盆栽的生长需求。 此外,系统还可以添加LCD液晶显示屏和按键模块,方便用户实时监测环境参数并进行设置调节。用户可以根据自己的需要设置温度、湿度和光照等参数,并通过按键进行灌溉和通风等操作。 总之,单片机C51温室盆栽灌溉系统设计能够实现自动监测温室环境参数,并根据设定的阈值和参数自动控制灌溉、通风和补光等操作,为盆栽的生长提供良好的环境条件,提高生长效率。同时,系统具有简单、经济、易于实施和调节的特点。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值