Python的zip函数, 使用zip()划分训练集和测试集

Python的zip函数使用zip()

交叉验证(Cross Validation)是常用的机器学习训练手段,可以有效检验一个模型的泛化能力。交叉验证需要将原始数据集平等地划分为若干份,例如 5-folds CV 指的是将数据集分为5份,然后进行5次训练,每次取出一份数据作为测试集,剩下的作为训练集,得到5个模型,最终将5个模型的预测值做一个平均。

CV的第一步就是划分数据集。

ython的zip函数使用zip()
data_list: [‘a’, ‘c’, 'f ']
class_list: [‘b’, ‘d’, ‘g’ ]
data_class_list:[ (‘a’, ‘b’), (‘c’, ‘d’), (‘f’, ‘g’) ]
test_size: 测试集的百分比,例如0.2

 data_class_list = list(zip(data_list, class_list))          #zip压缩合并,将数据与标签对应压缩    

 random.shuffle(data_class_list)                             #将data_class_list乱序   

 index = int(len(data_class_list) * test_size) + 1           #训练集和测试集切分的索引值    
 
 train_list = data_class_list[index:]                        #训练集    
 
 test_list = data_class_list[:index]                         #测试集    
 
 train_data_list, train_class_list = zip(*train_list)        #训练集解压缩    
 
 test_data_list, test_class_list = zip(*test_list)           #测试集解压缩

机器学习sklearn划分:

函数原型

sklearn.model_selection.train_test_split(*arrays, **options)

主要参数

  • X:数据集
  • Y:标签
  • test_size :用于作为测试集的比例,范围(0,1)
  • random_state : 随机数种子
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值