Python的zip函数, 使用zip()划分训练集和测试集

最新推荐文章于 2023-09-13 19:00:31 发布

iken_g

最新推荐文章于 2023-09-13 19:00:31 发布

阅读量1.1k

点赞数 1

分类专栏： Python零基础机器学习文章标签： Python函数

本文链接：https://blog.csdn.net/qq_43149373/article/details/95495469

版权

Python零基础同时被 2 个专栏收录

27 篇文章 2 订阅

订阅专栏

机器学习

7 篇文章 1 订阅

订阅专栏

Python的zip函数使用zip()

交叉验证（Cross Validation）是常用的机器学习训练手段，可以有效检验一个模型的泛化能力。交叉验证需要将原始数据集平等地划分为若干份，例如 5-folds CV 指的是将数据集分为5份，然后进行5次训练，每次取出一份数据作为测试集，剩下的作为训练集，得到5个模型，最终将5个模型的预测值做一个平均。

CV的第一步就是划分数据集。

ython的zip函数使用zip()
data_list: [‘a’, ‘c’, 'f ']
class_list: [‘b’, ‘d’, ‘g’ ]
data_class_list：[ (‘a’, ‘b’), (‘c’, ‘d’), (‘f’, ‘g’) ]
test_size: 测试集的百分比，例如0.2

 data_class_list = list(zip(data_list, class_list))          #zip压缩合并，将数据与标签对应压缩    

 random.shuffle(data_class_list)                             #将data_class_list乱序   

 index = int(len(data_class_list) * test_size) + 1           #训练集和测试集切分的索引值    
 
 train_list = data_class_list[index:]                        #训练集    
 
 test_list = data_class_list[:index]                         #测试集    
 
 train_data_list, train_class_list = zip(*train_list)        #训练集解压缩    
 
 test_data_list, test_class_list = zip(*test_list)           #测试集解压缩

机器学习sklearn划分：

函数原型

sklearn.model_selection.train_test_split(*arrays, **options)

主要参数

X：数据集
Y：标签
test_size ：用于作为测试集的比例，范围（0，1）
random_state : 随机数种子

iken_g

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录