Python的zip函数使用zip()
交叉验证(Cross Validation)是常用的机器学习训练手段,可以有效检验一个模型的泛化能力。交叉验证需要将原始数据集平等地划分为若干份,例如 5-folds CV 指的是将数据集分为5份,然后进行5次训练,每次取出一份数据作为测试集,剩下的作为训练集,得到5个模型,最终将5个模型的预测值做一个平均。
CV的第一步就是划分数据集。
ython的zip函数使用zip()
data_list: [‘a’, ‘c’, 'f ']
class_list: [‘b’, ‘d’, ‘g’ ]
data_class_list:[ (‘a’, ‘b’), (‘c’, ‘d’), (‘f’, ‘g’) ]
test_size: 测试集的百分比,例如0.2
data_class_list = list(zip(data_list, class_list)) #zip压缩合并,将数据与标签对应压缩
random.shuffle(data_class_list) #将data_class_list乱序
index = int(len(data_class_list) * test_size) + 1 #训练集和测试集切分的索引值
train_list = data_class_list[index:] #训练集
test_list = data_class_list[:index] #测试集
train_data_list, train_class_list = zip(*train_list) #训练集解压缩
test_data_list, test_class_list = zip(*test_list) #测试集解压缩
机器学习sklearn划分:
函数原型
sklearn.model_selection.train_test_split(*arrays, **options)
主要参数
- X:数据集
- Y:标签
- test_size :用于作为测试集的比例,范围(0,1)
- random_state : 随机数种子