文本分类训练集测试集_划分训练集和测试集

最新推荐文章于 2023-11-13 09:05:26 发布

weixin_39987985

最新推荐文章于 2023-11-13 09:05:26 发布

阅读量2.1k

点赞数 1

文章标签：文本分类训练集测试集测试集准确率高于训练集训练集测试集验证集训练集测试集验证集比例

本文介绍了在机器学习中如何避免过拟合，通过将数据集划分为训练集和测试集。讨论了纯随机采样方法`train_test_split()`及其参数，以及分层采样策略`StratifiedShuffleSplit()`，特别是在处理不平衡数据集时的重要性。两种方法都有助于确保模型在未见过的数据上的泛化能力。

摘要由CSDN通过智能技术生成

学习预测函数的参数，并在相同数据集上进行测试是一种错误的做法: 因为仅给出测试用例标签的模型将会获得极高的分数，但对于尚未出现过的数据它则无法预测出任何有用的信息。这种情况称为过拟合。为了避免这种情况，在进行(监督)机器学习实验时，一般会将数据集划分为训练集和测试集，训练集训练数据，测试集查看训练结果。
按照划分方式不同，分为纯随机采样和分层采样。

纯随机采样：train_test_split()

案例

from sklearn.model_selection import train_test_split
from sklearn import datasets

# 获取鸢尾花数据集
iris = datasets.load_iris()
print(iris.DESCR)

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

    ============== ==== ====

最低0.47元/天解锁文章

weixin_39987985

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
文本分类训练集测试集_划分训练集和测试集

学习预测函数的参数，并在相同数据集上进行测试是一种错误的做法: 因为仅给出测试用例标签的模型将会获得极高的分数，但对于尚未出现过的数据它则无法预测出任何有用的信息。这种情况称为过拟合。为了避免这种情况，在进行(监督)机器学习实验时，一般会将数据集划分为训练集和测试集，训练集训练数据，测试集查看训练结果。按照划分方式不同，分为纯随机采样和分层采样。纯随机采样：train_test_spli...
复制链接

扫一扫

文本分类训练集 测试集_划分训练集和测试集

纯随机采样：train_test_split()

案例

文本分类训练集测试集_划分训练集和测试集