认识一下cv函数:
sklearn.model_selection.cross_val_score(
estimator, # 自己选定的模型;
X, # array类型数据。训练集(自变量部分);
y=None, # 训练集(因变量部分);
groups=None,
scoring=None,
cv=’warn’, # 默认值3,即k-fold=3。
n_jobs=None,
verbose=0,
fit_params=None,
pre_dispatch=‘2*n_jobs’,
error_score=’raise-deprecating’)
参数含义:
1.estimator:实现'fit'的评估器主体
用来匹配数据的对象。
2.x:类似数组
要匹配的数据。例如,可以是列表,也可以是数组。
3.y:类似数组,可选,默认(None)
在监督学习的情况下,要尝试预测的目标变量。
4.group:类似数组,带形状(n_samples),可选
将数据集分割为训练/测试集时使用的样本的组标签。仅与“组”cv实例一起使用。
5.scoring:字符串,可调用或无,可选,默认(None)
一个字符串或一个记分员可调用的对象/函数,该对象/函数带有签名记分员(estimator, X, y),它应该只返回一个值。
与cross_validate类似,但只允许一个度量。
如果没有,则使用估计器的默认记分员(如果可用)。将数据集分割为训练/测试集时使用的样本的组标签。仅与“组”cv实例一起使用。
6.cv:int,交叉验证生成器或可迭代的,可选的
确定交叉验证分割策略。cv的可能输入有:
(1)没有,使用默认的5倍交叉验证,
(2)整数,用来指定一个(分层的)KFold中的折叠数,
(3)简历分配器,
(4)一个可迭代的产生(训练,测试)被分割为索引数组。
7.n_jobs:int或者None,可选,默认(None)
加快进程,n_jobs= -1指开启所有进程。
8.verbose:intrger,可选
(1).verbose = 0 为不在标准输出流输出日志信息。
(2).verbose = 1 为输出进度条记录。
(3).verbose = 2 为每个epoch输出一行记录。
9.fit_params:dict,可选
参数传递给估计器的拟合方法。
10.pre_dispatch:int或者string,可选
控制在并行执行期间分派的作业的数量。当分配的作业比cpu处理的多时,减少这个数量可以避免内存消耗的激增。这个参数可以是:
(1)None,在这种情况下,所有的工作都是立即创建和产生的。将其用于轻量级和快速运行的作业,以避免由于按需生成作业而导致的延迟。
(2)一个int,给出产生的所有作业的确切数量。
(3)一个string,将表达式作为n_jobs的函数,如' 2*n_jobs '
11.error_score:raise或者numeric
如果在估计器拟合中出现错误,则将值赋给该分数。如果设置为“引发”,则会引发错误。如果给定一个数值,则会引发FitFailedWarning。此参数不影响refit步骤,因为后者总是会引起错误。