python划分训练集和测试集_python-根据时间戳将数据分为训练集和测试集

最新推荐文章于 2023-09-13 19:00:31 发布

weixin_39690391

最新推荐文章于 2023-09-13 19:00:31 发布

阅读量2k

点赞数

文章标签： python划分训练集和测试集

在很多python任务中，我们需要将原始数据进行处理，分成训练集和测试集，以便更深层次的运用这些数据。

工具/原料

pycharm

python3.7

win10/7

方法/步骤

首先需要指定编码方式为【utf8】格式，再导入处理数据的包-pandas

994f412043715fdb690f108f468920c5270f8c84.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

然后利用pandas读取原始数据，【sep】参数表明原始数据每列数据之间的分隔方式，【names】参数表明给原始数据每一列取一个名字，若是你的数据列名本来就存在，这项可以舍去。

5e615d715fdb3620d915643cabc5260f89358d84.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

利用sort_values函数对原数据进行排序，【by】参数表明根据哪一列进行排序，这里选择的是时间戳列。【ascending=False】表明按倒序排序。

423041db3620b93aaca68970ad0f8835dc8a8a84.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

分别指定所需训练集和测试集的大小，这里取的是90%和10%。

5e9a2820b93acd8942ea8fba0335dd8a58de8b84.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

利用Dataframe的iloc函数，可取出日期最新的10%作为测试集

3761a73acd8920c545202180568a59de44078884.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

将【ascending】参数设为True，将原始数据进行正序排列，表明时间从前往后排，取前90%作为训练集。

b87bd38920c5260fec1a743fd2de450789018984.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

END

注意事项

熟练掌握pandas这个工具包很有用的哦！

有问题欢迎交流！

经验内容仅供参考，如果您需解决具体问题(尤其法律、医学等领域)，建议您详细咨询相关领域专业人士。

举报作者声明：本篇经验系本人依照真实经历原创，未经许可，谢绝转载。

展开阅读全部

关注