构造时间序列特征训练数据集时的几个trick

最新推荐文章于 2024-06-17 17:43:36 发布

是三水不是泗水

最新推荐文章于 2024-06-17 17:43:36 发布

阅读量1.2k

点赞数 2

分类专栏： python_ml

本文链接：https://blog.csdn.net/csg3140100993/article/details/107176675

版权

python_ml 专栏收录该内容

43 篇文章 0 订阅

订阅专栏

参考链接

1、评价指标RMSE/MAPE/MSE/MAE

计算RMSE/MAPE

2、构造lagging

def create_lagging(df,df_original,i):
    df1=df_original.copy()
    df1['time_interval_begin']=df1['time_interval_begin']+pd.DateOffset(minutes=i*2)
    df1=df1.rename(columns={'travel_time':'lagging'+str(i)})
    df2=pd.merge(df,df1[['link_ID','time_interval_begin','lagging'+str(i)]],on=['link_ID','time_interval_begin'],how='left')
    return df2
df1 = create_lagging(df, df, 1)
for i in range(2, 6):
    df1 = create_lagging(df1, df, i)
df1.head(6)

	link_ID	time_interval_begin	travel_time	date	length	width	link_class	in_links	out_links	links_num	area	link_ID_en	lagging1	lagging2	lagging3	lagging4	lagging5
0	4377906289869500514	2017-04-01 06:00:00	1.026672	2017-04-01	57	3	1	1.0	1.0	1.0,1.0	171	49	NaN	NaN	NaN	NaN	NaN
1	4377906289869500514	2017-04-01 06:02:00	1.026672	2017-04-01	57	3	1	1.0	1.0	1.0,1.0	171	49	1.026672	NaN	NaN	NaN	NaN
2	4377906289869500514	2017-04-01 06:04:00	1.014454	2017-04-01	57	3	1	1.0	1.0	1.0,1.0	171	49	1.026672	1.026672	NaN	NaN	NaN
3	4377906289869500514	2017-04-01 06:06:00	1.014454	2017-04-01	57	3	1	1.0	1.0	1.0,1.0	171	49	1.014454	1.026672	1.026672	NaN	NaN
4	4377906289869500514	2017-04-01 06:08:00	1.014454	2017-04-01	57	3	1	1.0	1.0	1.0,1.0	171	49	1.014454	1.014454	1.026672	1.026672	NaN
5	4377906289869500514	2017-04-01 06:10:00	1.014454	2017-04-01	57	3	1	1.0	1.0	1.0,1.0	171	49	1.014454	1.014454	1.014454	1.026672	1.026672

3、 ①构造训练集，②模型调参找到合适的参数，③测试集导出未来几个时刻的结果；以上为接下来详述的三个部分

①构造训练集：

数据正则化，删除离群点。

找到缺失值，填充缺失值。

构造时间特征：lagging（12345）、day_of_week(这一天是周几，可以聚类减少分类)、hour_en(是一天的第几个小时，可以聚类)、week_hour（这个是由day_of_week和hour_en合并得到的，之后要独热编码）、vocation(是否为国家法定假期)......

构造相关重要特征(比如天池智慧交通中要构造与路况相关的特征):length(路长)、width(路宽)、in_links\out_links（出入度）、link_nums（这个是由in_links和out_links合并得到的，之后要进行独热编码）、ID_en(根据travel_time对ID进行排序生成新的id并作为特征)

独热编码和label编码的区别

什么情况下进行one hot 编码？。。。。

（1）解决类别型数据的离散值问题。

（2）离散特征编码，离散特征的取值之间没有大小的意义，比如color：[red，blue]，那么就选择独热编码。使得非偏序关系的变量取值不具有偏序性，编码后的特征可以看做连续的特征，可以进行归一化。这里选择对week_hour进行独热编码。

（3）对ID进行one-hot编码，如果要进行label encode的话这里选择了和travel time相关的排序编码，缺点是这样容易过拟合。

（4）xgboost和随机森林能够同时处理连续和离散的特征，但是以现在的实现来看，这两者还不具备对把这1到132数字当做类别去看待，因为这两者(scikit的random forest和官方xgboost)对特征划分方式的实现(回归)是基于Numerical的，与基于信息熵的决策树不同，他们会认为根据id的大小去选择划分点，因此对于想要使用scikit的随机森林和xgboost来说，onehot是必要的。

（5）基于numerical和基于信息熵有什么区别，为什么前者不能进行label编码，后者可以？

df2.loc[df2['day_of_week'].isin([1, 2, 3]), 'day_of_week_en'] = 1
df2.loc[df2['day_of_week'].isin([4, 5]), 'day_of_week_en'] = 2
df2.loc[df2['day_of_week'].isin([6, 7]), 'day_of_week_en'] = 3
df2.loc[df['time_interval_begin'].dt.hour.isin([6, 7, 8]), 'hour_en'] = 1
df2.loc[df['time_interval_begin'].dt.hour.isin([13, 14, 15]), 'hour_en'] = 2
df2.loc[df['time_interval_begin'].dt.hour.isin([16, 17, 18]), 'hour_en'] = 3
df2['week_hour'] = df2["day_of_week_en"].astype('str') + "," + df2["hour_en"].astype('str')
df2.loc[df2['links_num'].isin(['0.0,2.0', '2.0,0.0', '1.0,0.0']), 'links_num'] = 'other'
df2 = pd.get_dummies(df2, columns=['week_hour', 'links_num', 'width'])
df2.head()

②得到训练集之后进行train and cross valid,关键是分几个cross valid（5~10个）

关键是cross valid的作用是什么？。。。。

（1）数据集较小时防止overfitting过拟合；找到合适的模型参数（可以选择平均n次训练的模型参数）；

（2）数据集足够大时不需要交叉验证，因为训练时间要加倍，而数据集较大的时候训练时间成本太大并且没必要。

（3）天池的这个比赛当中可以选择进行交叉验证，采用5-交叉验证，并用平均值作为模型参数，训练的时候可以采用ParameterGrid()进行网格调参

③找到了合适的参数就可以在这个参数集的条件下进行训练和预测，预测的切片和长度可以在这个时候确定，输出格式也要注意。