文本分类训练集 测试集_划分训练集和测试集

本文介绍了在机器学习中如何避免过拟合,通过将数据集划分为训练集和测试集。讨论了纯随机采样方法`train_test_split()`及其参数,以及分层采样策略`StratifiedShuffleSplit()`,特别是在处理不平衡数据集时的重要性。两种方法都有助于确保模型在未见过的数据上的泛化能力。
摘要由CSDN通过智能技术生成

学习预测函数的参数,并在相同数据集上进行测试是一种错误的做法: 因为仅给出测试用例标签的模型将会获得极高的分数,但对于尚未出现过的数据它则无法预测出任何有用的信息。这种情况称为过拟合。为了避免这种情况,在进行(监督)机器学习实验时,一般会将数据集划分为训练集和测试集,训练集训练数据,测试集查看训练结果。
按照划分方式不同,分为纯随机采样和分层采样。

纯随机采样:train_test_split()

案例
from sklearn.model_selection import train_test_split
from sklearn import datasets

# 获取鸢尾花数据集
iris = datasets.load_iris()
print(iris.DESCR)
.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

    ============== ==== ==== 
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值