分离数据集的方法

(1)K折交叉验证(KFold):通常K选取值为3、5、10

   当不能确定使用何种验证方法时,可采用K折验证法;

   当不知确定K的取值时,最优的情况是选10。

(2)分离训练数据集合评估数据集(train_test_split)

      执行效率非常高,可以有效的解决某些算法执行速度慢的问题,也可以解决数据量大的问题

      在指定分离数据大小的同时,可以对其随机粒度进行指定(seed),可以保证其每次执行都可以得到相同的结果,可以用于比较不同算法生成的模型的结果

(3)弃一交叉验证分离(LeaveOneOut)

    若样本有N个,那么就会有N个模型,所以评估所得的结果非常可靠,但是成本非常的高。

    常用于平衡评估算法,模型训练的速度和数据量的大小。

(4)重复随机分离评估数据集和训练数据集(ShuffleSplit)

    该过程类似于多次交叉验证分离;

              常用于平衡评估算法,模型训练的速度和数据量的大小。

kfold = ShuffleSplit(n_split = 10 , test_size = 0.33 ,r andom_state=seed)

result = cross_val_score(LogisticRegression(),X,Y,cv=kfold)

转载于:https://www.cnblogs.com/Cheryol/p/11485451.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值