浅析机器学习中的模型选择与调参(cross validation + grid search)

对于一个预测问题,同时有多种可用的模型,每种模型有多种可用的参数。如何选择一个最合适的模型?


总题过程分为2个部分:

            1.对于一个模型,如何评估该模型在特定问题上的好坏?

            2.选择了最好的模型后,如何选择最优的参数?


对于模型的评估,我们一般使用交叉验证(cross validation)来进行评估。 在这里我们使用了k折叠法,将训练集划分为相等的k份。然后从1~k中每次选择一份作为测试集,其余的k-1份作为训练集,训练好后利用某种评分规则对模型进行评分,最后以k个评分中最高的作为该模型的评分。


常见的评分规则有:R方值,F值,t值

R square 是决定系数,意思是你拟合的模型能解释因变量的变化的百分数,例如R方=0.810,表示你拟合的方程能解释因变量81%的变化,还有19%是不能够解释的.
F值 是方差检验量,是整个模型的整体检验,看你拟合的方程有没有意义
t值 是对每一个自变量(logistic回归)的逐个检验,看它的beta值β即回归系数有没有意义
F和t的显著性都是0.05

当我们对每一个模型都进行了交叉验证后,就能够选出一个对于当前问题最优的模型。接下来就需要解决第二个问题:对模型调参。在这里我们使用 网格搜索(grid search) 来对模型选择一套合适的参数。以支持向量机为例,其参数有gamma和C,那么其构成的二元组(1,1),(0.1,1),(1,10)..就可以看做是若干个“网格”。那么网格搜索就是,对于支持向量机这个模型,对于每个网格都进行一次交叉验证评估,最后得到评分最高的一组网格,那么最后我们就建立起了最优的模型

下面附上使用sklearn实现交叉验证和网格搜索的代码(kaggle中的牛人笔记):
  1. # R2 Score  
  2.   
  3. def lets_try(train,labels):  
  4.     results={}  
  5.     def test_model(clf):  
  6.           
  7.         cv = KFold(n_splits=5,shuffle=True,random_state=45)  
  8.         r2 = make_scorer(r2_score)  
  9.         r2_val_score = cross_val_score(clf, train, labels, cv=cv,scoring=r2)  
  10.         scores=[r2_val_score.mean()]  
  11.         return scores  
  12.   
  13.     clf = linear_model.LinearRegression()  
  14.     results["Linear"]=test_model(clf)  
  15.       
  16.     clf = linear_model.Ridge()  
  17.     results["Ridge"]=test_model(clf)  
  18.       
  19.     clf = linear_model.BayesianRidge()  
  20.     results["Bayesian Ridge"]=test_model(clf)  
  21.       
  22.     clf = linear_model.HuberRegressor()  
  23.     results["Hubber"]=test_model(clf)  
  24.       
  25.     clf = linear_model.Lasso(alpha=1e-4)  
  26.     results["Lasso"]=test_model(clf)  
  27.       
  28.     clf = BaggingRegressor()  
  29.     results["Bagging"]=test_model(clf)  
  30.       
  31.     clf = RandomForestRegressor()  
  32.     results["RandomForest"]=test_model(clf)  
  33.       
  34.     clf = AdaBoostRegressor()  
  35.     results["AdaBoost"]=test_model(clf)  
  36.       
  37.     clf = svm.SVR()  
  38.     results["SVM RBF"]=test_model(clf)  
  39.       
  40.     clf = svm.SVR(kernel="linear")  
  41.     results["SVM Linear"]=test_model(clf)  
  42.       
  43.     results = pd.DataFrame.from_dict(results,orient='index')  
  44.     results.columns=["R Square Score"]   
  45.     results=results.sort(columns=["R Square Score"],ascending=False)  
  46.     results.plot(kind="bar",title="Model Scores")  
  47.     axes = plt.gca()  
  48.     axes.set_ylim([0.5,1])  
  49.     return results  

得到各个模型的R方评分:



从这里,我们就确定了选用Hubber模型进行网格搜索:
  1. cv = KFold(n_splits=5,shuffle=True,random_state=45)  
  2.   
  3. parameters = {'alpha': [1000,100,10],  
  4.               'epsilon' : [1.2,1.25,1.50],  
  5.               'tol' : [1e-10]}  
  6.   
  7. clf = linear_model.HuberRegressor()  
  8. r2 = make_scorer(r2_score)  
  9. grid_obj = GridSearchCV(clf, parameters, cv=cv,scoring=r2)  
  10. grid_fit = grid_obj.fit(train, labels)  
  11. best_clf = grid_fit.best_estimator_   
  12.   
  13. best_clf.fit(train,labels)  
最后我们就得到了一个最优的模型!



转载自:https://i-blog.csdnimg.cn/blog_migrate/746c5bb3972be78db216b0d80213352b.png

相关链接:

https://stackoverflow.com/questions/19335165/cross-validation-and-grid-search

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值