时间序列划分训练集与测试集问题
问题:
使用sklearn的train_test_split进行训练集和测试集数据划分后,数据的顺序被打乱,不再按照日期排序。这时候预测的准确度高达80%。鉴于这个准确度比较吓人,我有点怀疑。于是就对数据按照日期顺序划分训练集和测试集,比如2015年之前的作为训练集,之后的作为测试集。重新训练后,预测准确度下降到了50%。
知乎的回答
问题:
使用sklearn的train_test_split进行训练集和测试集数据划分后,数据的顺序被打乱,不再按照日期排序。这时候预测的准确度高达80%。鉴于这个准确度比较吓人,我有点怀疑。于是就对数据按照日期顺序划分训练集和测试集,比如2015年之前的作为训练集,之后的作为测试集。重新训练后,预测准确度下降到了50%。
知乎的回答