训练集:用来训练和拟合模型。
验证集:当通过训练集训练出多个模型后,使用验证集数据纠偏或比较预测。
测试集:模型泛化能力的考量。(泛化:对未知数据的预测能力)。
from sklearn.model_selection import train_test_split
import numpy as np
from pandas import DataFrame
data=DataFrame(np.array(np.random.randint(1,100,30)).reshape(10,3))
data_tt,data_validation=train_test_split(data,test_size=0.2)#data_validation为验证集,占20%
data_train,data_test=train_test_split(data_tt,test_size=0.25)#data_test为测试集,占剩下的25%,data_train为测试集,占剩下的75%
#data_validation : data_test : data_train=2 : 2 : 6
print(len(data_validation),len(data_test),len(data_train))
结果:
2 2 6