python训练模型函数参数_python进行机器学习(四)之模型验证与参数选择

一、模型验证

进行模型验证的一个重要目的是要选出一个最合适的模型,对于监督学习而言,我们希望模型对于未知数据的泛化能力强,所以就需要模型验证这一过程来体现不同的模型对于未知数据的表现效果。

这里我们将训练集再分成训练集与验证集两部分,大概比例就是3:1吧。一般来讲不同的训练集、验证集分割的方法会导致其准确率不同,而交叉验证的基本思想是:将数据集进行一系列分割,生成一组不同的训练验证集,然后分别训练模型并计算测试准确率,这样就会得到多个模型与多个准确率,然后取其平均值即可,这样就有效防止因为数据的特定分割导致的准确率伪过高,过拟合问题,对于模型的评价更加客观、有说服力!

二、K折交叉验证

将数据集平均分割成K个等份

使用1份数据作为测试数据,其余作为训练数据

计算测试准确率

使用不同的测试集,重复2、3步骤

对测试准确率做平均,作为对未知数据预测准确率的估计

1102791-20170506112829273-524196904.png

三、交叉验证的应用

1)模型参数选择

1 #!/usr/bin/python

2

3 importpandas as pd4 importnumpy as np5 importmatplotlib.pyplot as plt6 from sklearn.linear_model importRidge,RidgeCV, ElasticNet, LassoCV, LassoLarsCV7 from sklearn.model_selection importcross_val_score8

9 df=pd.read_csv('a.csv')10 X_train=df.iloc[:,0:-1]11

12 y=df.price13

14 defrmse_cv(model):15 rmse= np.sqrt(-cross_val_score(model, X_train, y, scoring="neg_mean_squared_error", cv = 3))16 print(rmse)17 return(rmse)18

19

20

21 alphas = [0.05, 0.1, 0.3, 1, 3, 5, 10, 15, 30, 50, 75]22

23 cv_ridge = [rmse_cv(Ridge(alpha = alpha)).mean() for alpha inalphas]24

25

26 cv_ridge = pd.Series(cv_ridge, index =alphas)27 cv_ridge.plot(title = "Validation - Just Do It")28 plt.xlabel("alpha")29 plt.ylabel("rmse")30 plt.show()

1102791-20170506190722304-1033899492.png

从上述图中看出来,当alpha=1时候,rmse值最小。

这就是交叉验证的一个典型应用,通过交叉验证选择Ridge回归的正则化参数alpha,取使残差平方值rmse最小的alpha值。

2)模型选择

交叉验证也可以帮助我们进行模型选择,使用方式类似与上述参数选择,就是利用交叉验证集作用在不同的模型上,选择一个使残差平方值或者精确度最高(注:在scikit-learn的cross_val_score函数中可以选择使用那种方式)的模型最为最终模型。

3)特征选择

通过交叉验证来进行特征的选择,对比不同的特征组合对于模型的预测效果,大概方法也类同上述所讲。

四、scikit-learn中cross_val_score函数

sklearn.cross_validation.cross_val_score(estimator, X, y=None, scoring=None, cv=None, n_jobs=1, verbose=0, fit_params=None, pre_dispatch='2*n_jobs')

estimator:所调用的机器学习模型算法

X:训练集

y:训练集的目标值

scoring:评测模型的打分标准,scoring可调用的对应的函数名称如下:

Classification

Clustering

Regression

neg_mean_absolute_error

neg_mean_squared_error

cv:交叉验证分割样本集的策略,默认是3折交叉验证。For integer/None inputs, if the estimator is a classifier and y is either binary or      multiclass, StratifiedKFold is used. In all other cases, KFold is used。

n_jobs:The number of CPUs to use to do the computation. -1 means ‘all CPUs’。

pre_dispatch:控制总执行任务数量,以防止任务数量超过CPU数量,将内存消耗殆尽。

None:不做任务量限制,任务产生就执行。

int 值:限制总并行执行的最大任务数。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值