机器学习sklearn中的交叉验证参数

最新推荐文章于 2023-07-23 21:04:55 发布

路由跳变

最新推荐文章于 2023-07-23 21:04:55 发布

阅读量2.8k

点赞数 2

分类专栏： sklearn中的参数含义文章标签： python 机器学习

本文链接：https://blog.csdn.net/sinat_41942180/article/details/104835429

版权

sklearn中的参数含义专栏收录该内容

9 篇文章 2 订阅

订阅专栏

认识一下cv函数：

sklearn.model_selection.cross_val_score(
                            estimator,       # 自己选定的模型；
                            X,               # array类型数据。训练集（自变量部分）；
                            y=None,          # 训练集（因变量部分）；
                            groups=None, 
                            scoring=None, 
                            cv=’warn’,      # 默认值3，即k-fold=3。
                            n_jobs=None, 
                            verbose=0, 
                            fit_params=None,  
                            pre_dispatch=‘2*n_jobs’, 
                            error_score=’raise-deprecating’)

参数含义：

1.estimator:实现'fit'的评估器主体
用来匹配数据的对象。

2.x:类似数组
要匹配的数据。例如，可以是列表，也可以是数组。

3.y:类似数组，可选，默认（None）
在监督学习的情况下，要尝试预测的目标变量。

4.group:类似数组，带形状（n_samples）,可选
将数据集分割为训练/测试集时使用的样本的组标签。仅与“组”cv实例一起使用。

5.scoring:字符串，可调用或无，可选，默认（None）
一个字符串或一个记分员可调用的对象/函数，该对象/函数带有签名记分员(estimator, X, y)，它应该只返回一个值。
与cross_validate类似，但只允许一个度量。
如果没有，则使用估计器的默认记分员(如果可用)。将数据集分割为训练/测试集时使用的样本的组标签。仅与“组”cv实例一起使用。

6.cv:int，交叉验证生成器或可迭代的，可选的
确定交叉验证分割策略。cv的可能输入有:
（1）没有，使用默认的5倍交叉验证，
（2）整数，用来指定一个(分层的)KFold中的折叠数，
（3）简历分配器,
（4）一个可迭代的产生(训练，测试)被分割为索引数组。

7.n_jobs:int或者None，可选，默认（None）
加快进程，n_jobs= -1指开启所有进程。

8.verbose:intrger，可选
(1).verbose = 0 为不在标准输出流输出日志信息。
(2).verbose = 1 为输出进度条记录。
(3).verbose = 2 为每个epoch输出一行记录。

9.fit_params:dict，可选
参数传递给估计器的拟合方法。

10.pre_dispatch:int或者string，可选
控制在并行执行期间分派的作业的数量。当分配的作业比cpu处理的多时，减少这个数量可以避免内存消耗的激增。这个参数可以是:
（1）None，在这种情况下，所有的工作都是立即创建和产生的。将其用于轻量级和快速运行的作业，以避免由于按需生成作业而导致的延迟。
（2）一个int，给出产生的所有作业的确切数量。
（3）一个string，将表达式作为n_jobs的函数，如' 2*n_jobs '

11.error_score:raise或者numeric
如果在估计器拟合中出现错误，则将值赋给该分数。如果设置为“引发”，则会引发错误。如果给定一个数值，则会引发FitFailedWarning。此参数不影响refit步骤，因为后者总是会引起错误。