一、赛题介绍:时间序列问题
数据集:
-
初赛
训练集:2019年3月14日---->2019年4月3日,每分钟一条数据,接近半个月的数据。
测试集:后10天的数据,每30分钟一条数据。
数据预处理:
1.训练集中label缺失的样本去掉。
2.训练集中其他特征缺失比例比较小,且相邻2个样本关联程度比较高,因此直接选择线性填充。
3.异常值截断(假设数据服从正态分布,使用3σ法则进行截断,可用前后均值替换)
upper = data_df[f].mean()+ 3 * data_df[f].std() lower = data_df[f].mean()- 3 * data_df[f].std()
特征工程:
- 1对小时粒度的基本聚合特征------->存在特征穿越
group_feats = []
for f in tqdm(['outdoorTemp', 'outdoorHum', 'outdoorAtmo', 'indoorHum', 'indoorAtmo']):
data_df['MDH_{}_medi'.format(f)] = data_df.groupby(['month', 'day', 'hour'])[f].transform('median')
data_df['MDH_{}_mean'.format(f)] = data_df.groupby(['month', 'day', 'hour'])[f].transform('mean')
data_df['MDH_{}_max'.format(f)] = data_df.groupby(['month', 'day', 'hour'])[f].transform('max')
data_df['MDH_{}_min'.format(f)] = data_df.groupby(['month', 'day', 'hour'])[f].transform('min')
data_df['MDH_{}_std'.format(f)] = data_df.groupby(['month', 'day', 'hour'])[f].transform('std')
- 2.基本交叉特征---除,差
for f1 in tqdm(['outdoorTemp', 'outdoorHum', 'outdoorAtmo', 'indoorHum', 'indoorAtmo']):
for f2 in ['outdoorTemp', 'outdoorHum', 'outdoorAtmo', 'indoorHum', 'indoorAtmo'] :
if f1 != f2:
colname = '{}_{}_ratio'.format(f1, f2)
data_df[colname] = data_df[f1].values / data_df[f2].values
- 3.对月份特征进行one_hot编码,并基于月份特征构造季度特征,并one_hot。
- 4. 特征离散化
for f in ['outdoorTemp', 'outdoorHum', 'outdoorAtmo', 'indoorHum', 'indoorAtmo']:
data_df[f + '_20_bin'] = pd.cut(data_df[f], 20, duplicates='drop').apply(lambda x: x.left).astype(int)
data_df[f + '_50_bin'] = pd.cut(data_df[f], 50, duplicates='drop').apply(lambda x: x.left).astype(int)
data_df[f + '_100_bin'] = pd.cut(data_df[f], 100, duplicates='drop').apply(lambda x: x.left).astype(int)
data_df[f + '_200_bin'] = pd.cut(data_df[f], 200, duplicates='drop').apply(lambda x: x.left).astype(int)
- 5.统计每个分桶中特征的统计特征max,mean,min,median。--------存在特征穿越
for f1 in tqdm(['outdoorTemp_20_bin', 'outdoorHum_20_bin', 'outdoorAtmo_20_bin', 'indoorHum_20_bin', 'indoorAtmo_20_bin']):
for f2 in ['outdoorTemp', 'outdoorHum', 'outdoorAtmo', 'indoorHum', 'indoorAtmo']:
data_df['{}_{}_medi'.format(f1, f2)] = data_df.groupby([f1])[f2].transform('median')
data_df['{}_{}_mean'.format(f1, f2)] = data_df.groupby([f1])[f2].transform('mean')
data_df['{}_{}_max'.format(f1, f2)] = data_df.groupby([f1])[f2].transform('max')
data_df['{}_{}_min'.format(f1, f2)] = data_df.groupby([f1])[f2].transform('min')
- 6. 一小时前对应分钟同期值和差分(使用shift操作)
# 一小时前同期值
for f in tqdm(['outdoorTemp','outdoorHum','outdoorAtmo','indoorHum','indoorAtmo']):
train_df['ago_1hour_{}'.format(f)] = train_df[f].shift(1*60)
test_df['ago_1hour_{}'.format(f)] = test_df[f].shift(1*2)
- 7. 半小时前数据滑窗均值(使用rolling操作)
for f in tqdm(['outdoorTemp','outdoorHum','outdoorAtmo','indoorHum','indoorAtmo']):
train_rolling = train_df[f].rolling(window=30)
train_df['rolling_{}_mean'.format(f)] = train_rolling.mean()
test_rolling = test_df[f].rolling(window=2)
test_df['rolling_{}_mean'.format(f)] = test_rolling.mean()
- 8. 一小时前同期值基本交叉特征
for f1 in tqdm(['ago_1hour_outdoorTemp','ago_1hour_outdoorHum','ago_1hour_outdoorAtmo','ago_1hour_indoorHum','ago_1hour_indoorAtmo']):
for f2 in ['ago_1hour_outdoorTemp','ago_1hour_outdoorHum','ago_1hour_outdoorAtmo','ago_1hour_indoorHum','ago_1hour_indoorAtmo']:
if f1 != f2:
colname = 'ago_1hour_{}_{}_ratio'.format(f1, f2)
data_df[colname] = data_df[f1].values / data_df[f2].values
- 9. 历史信息提取——前2天同小时基本特征(包括初始特征和交叉特征)的均值(dt)
# 2days历史信息提取
data_df['dt'] = data_df['day'].values + (data_df['month'].values - 3) * 31
for f in tqdm(['outdoorTemp','outdoorHum','outdoorAtmo','indoorHum','indoorAtmo']+ratio_feats):
tmp_df = pd.DataFrame()
for t in range(15, 45):
tmp = data_df[data_df['dt'].isin([t-1,t-2])].groupby(['hour'])[f].agg({'mean'}).reset_index()
tmp.columns = ['hour','hit2days_{}_mean'.format(f)]
tmp['dt'] = t
tmp_df = tmp_df.append(tmp)
data_df = data_df.merge(tmp_df, on=['dt','hour'], how='left')
构建模型------不能K折交叉验证,容易穿越
- 岭回归
- Xgboost
- LightGBM
(其中树模型,构建标签的时候,由于室内温度和室外温度极其相关,因此使用室内温度-室外温度用作标签)
-
复赛
训练集:2020年1月13日---->2020年1月22日,每分钟一条数据,接近10天的数据。
训练集:2020年2月1日---->2020年2月5日,每2小时一条数据。