机器学习python中train_test_split()函数进行数据集分割

忘川之水&

已于 2022-06-23 11:51:07 修改

阅读量1.5w

点赞数 9

分类专栏：机器学习文章标签：机器学习 python 人工智能

于 2020-11-20 10:23:19 首次发布

本文链接：https://blog.csdn.net/duyibo123/article/details/109840619

版权

机器学习专栏收录该内容

19 篇文章 14 订阅

订阅专栏

函数名：train_test_split
所在包：sklearn.model_selection
功能：划分数据的训练集与测试集

参数解读：train_test_split (*arrays，test_size, train_size, rondom_state=None, shuffle=True, stratify=None)

#红色为常用

arrays：特征数据和标签数据（array，list，dataframe等类型），要求所有数据长度相同。
test_size / train_size: 测试集/训练集的大小，若输入小数表示比例，若输入整数表示数据个数。
rondom_state：随机种子（一个整数），其实就是一个划分标记，对于同一个数据集，如果- rondom_state相同，则划分结果也相同。
shuffle：是否打乱数据的顺序，再划分，默认True。
stratify：none或者array/series类型的数据，表示按这列进行分层采样。

#随机种子详解：

	其实就是该组随机数的编号，在需要重复试验的时候，保证得到一组一样的随机数。比如你每次都填1，其他参数一样的情况下你得到的随机数组是一样的。但填0或不填，每次都会不一样。

#stratify详解：

	stratify是为了保持split前类的分布。比如有100个数据，80个属于A类，20个属于B类。如果train_test_split(... test_size=0.25, stratify = y_all), 那么split之后数据如下： 
training: 75个数据，其中60个属于A类，15个属于B类。 
testing: 25个数据，其中20个属于A类，5个属于B类。
	用了stratify参数，training集和testing集的类的比例是 A：B= 4：1，等同于split前的比例（80：20）。通常在这种类分布不平衡的情况下会用到stratify。
将stratify=X就是按照X中的比例分配 
将stratify=y就是按照y中的比例分配

举个例子

特征数据：data
   a  b  c
0  1  2  3
1  1  3  6
2  2  3  8
3  1  5  7
4  2  4  8
5  2  3  6
6  1  4  8
7  2  3  6
标签数据：label
[2,3,5,6,8,0,2,3]

#划分
xtrain,xtest,ytrain,ytest=train_test_split(data,label,test_size=0.2,stratify=data['a'],random_state=1)
训练特征集：
   a  b  c
0  1  2  3
2  2  3  8
3  1  5  7
5  2  3  6
6  1  4  8
4  2  4  8
测试特征集：
   a  b  c
1  1  3  6
7  2  3  6

训练集与测试集按照a列来分层采样，且无论重复多少次上述语句，划分结果都相同。

忘川之水&

关注

9
点赞
踩
35

收藏

觉得还不错? 一键收藏
打赏
3
评论
机器学习python中train_test_split()函数进行数据集分割

函数名：train_test_split所在包：sklearn.model_selection功能：划分数据的训练集与测试集参数解读：train_test_split (*arrays，test_size, train_size, rondom_state=None, shuffle=True, stratify=None)#红色为常用 arrays：特征数据和标签数据（array，list，dataframe等类型），要求所有数据长度相同。test_size / train_size:
复制链接

扫一扫