Sklearn的train_test_split用法

最新推荐文章于 2024-03-05 17:00:34 发布

小瓶盖的猪猪侠

最新推荐文章于 2024-03-05 17:00:34 发布

阅读量689

点赞数

分类专栏：数据科学 python 文章标签： python

本文链接：https://blog.csdn.net/qq_29983883/article/details/116330284

版权

python 同时被 2 个专栏收录

85 篇文章 1 订阅

订阅专栏

数据科学

15 篇文章 1 订阅

订阅专栏

功能

划分数据的训练集与测试集

参数解读：

X_train,X_test, y_train, y_test = train_test_split (*arrays，test_size, train_size, rondom_state=None, shuffle=True, stratify=None)

arrays：特征数据和标签数据（array，list，dataframe等类型），要求所有数据长度相同。
test_size / train_size: 测试集/训练集的大小，若输入小数表示比例，若输入整数表示数据个数。
rondom_state：随机种子（一个整数），其实就是一个划分标记，对于同一个数据集，如果rondom_state相同，则划分结果也相同。
shuffle：是否打乱数据的顺序，再划分，默认True。
stratify：none或者array/series类型的数据，表示按这列进行分层采样。
X_train :划分出的训练集数据（返回值）
X_test :划分出的测试集数据（返回值）
y_train :划分出的训练集标签（返回值）
y_test :划分出的测试集标签（返回值）

样例

    >>> import numpy as np
    >>> from sklearn.model_selection import train_test_split
    >>> X, y = np.arange(10).reshape((5, 2)), range(5)
    >>> X
    array([[0, 1],
           [2, 3],
           [4, 5],
           [6, 7],
           [8, 9]])
    >>> list(y)
    [0, 1, 2, 3, 4]

    >>> X_train, X_test, y_train, y_test = train_test_split(
    ...     X, y, test_size=0.33, random_state=42)
    ...
    >>> X_train
    array([[4, 5],
           [0, 1],
           [6, 7]])
    >>> y_train
    [2, 0, 3]
    >>> X_test
    array([[2, 3],
           [8, 9]])
    >>> y_test
    [1, 4]

    >>> train_test_split(y, shuffle=False)
    [[0, 1, 2], [3, 4]]

小瓶盖的猪猪侠

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Sklearn的train_test_split用法

功能划分数据的训练集与测试集参数解读：X_train,X_test, y_train, y_test = train_test_split (*arrays，test_size, train_size, rondom_state=None, shuffle=True, stratify=None)arrays：特征数据和标签数据（array，list，dataframe等类型），要求所有数据长度相同。test_size / train_size: 测试集/训练集的大小，若输入小数表示比例，若输
复制链接

扫一扫