Python-sklearn机器学习的第一个样例（6）

最新推荐文章于 2024-07-15 15:40:17 发布

番番要吃肉

最新推荐文章于 2024-07-15 15:40:17 发布

阅读量1.9k

点赞数 1

分类专栏：机器学习 Python 文章标签： Python 机器学习大数据

Python 同时被 2 个专栏收录

18 篇文章 4 订阅

订阅专栏

机器学习

9 篇文章 1 订阅

订阅专栏

交叉检验（Cross-validation）

正是由于这个问题，大部分的数据科学家都会对数据模型进行“K层交叉检验（K-fold cross-validation）”：把原始的数据集划分为K个子集，使用其中一个子集作为测试集，其他子集都用作训练集。这个过程重复K次，这样每个子集都会成为一次测试集。

10层交叉验证是最常用的。

In [65]:

 
       
     
 
           import numpy as np 
           from sklearn.cross_validation import StratifiedKFold 
           ​ 
           def plot_cv(cv, n_samples): 
           ​ 
               masks = [] 
               for train, test in cv: 
                   mask = np.zeros(n_samples, dtype=bool) 
                   mask[test] = 1 
                   masks.append(mask) 
           ​ 
               plt.figure(figsize=(15, 15)) 
               plt.imshow(masks, interpolation='none') 
               plt.ylabel('Fold') 
               plt.xlabel('Row #') 
           ​ 
           plot_cv(StratifiedKFold(all_classes, n_folds=10), len(all_classes)) 
          

你已经注意到，在以上的代码中我们使用了分层的K次交叉验证。这种分层的K次交叉验证，可以保证在每一次验证中的，每一类中的数据量比例一致，这样才能保证数据子集的代表性。毕竟我们不可能在每一个子集中，包含某个类别的所有记录。

    In [66]: 
  

 
           from sklearn.cross_validation import cross_val_score 
           ​ 
           decision_tree_classifier = DecisionTreeClassifier() 
           ​ 
           # cross_val_score returns a list of the scores, which we can visualize 
           # to get a reasonable estimate of our classifier's performance 
           cv_scores = cross_val_score(decision_tree_classifier, all_inputs, all_classes, cv=10) 
           sb.distplot(cv_scores) 
           plt.title('Average score: {}'.format(np.mean(cv_scores)))

f:\Anaconda3\lib\site-packages\statsmodels\nonparametric\kdetools.py:20: VisibleDeprecationWarning: using a non-integer number instead of an integer will result in an error in the future
  y = X[:m/2+1] + np.r_[0,X[m/2+1:],0]*1j

Out[66]:

<matplotlib.text.Text at 0x217ef54860>

现在这个分类器要好多了，相对来说有了更一致的分类准确性。

参数调优

每个机器学习的模型都伴随着大量的参数调优，这些参数对模型的表现至关重要。例如，我们是否严格限制决策树的深度。

In [67]:

 
           decision_tree_classifier = DecisionTreeClassifier(max_depth=1) 
           ​ 
           cv_scores = cross_val_score(decision_tree_classifier, all_inputs, all_classes, cv=10) 
           sb.distplot(cv_scores, kde=False) 
           plt.title('Average score: {}'.format(np.mean(cv_scores)))

      Out[67]: 
    

<matplotlib.text.Text at 0x2100c405c0>

把最大深度限制为1，分类器的精确度当然非常差。

因此，我们应该找到一个系统性的方法，探寻模型和数据集的最佳参数。

最通常的模型参数调优方法是：网格搜索（Grid Search）。原理其实很简单：探测整个范围内的参数，寻找表现最佳的参数组合。

下面开始对我们的决策树分类器进行调优。这里主要聚焦两个参数，实际应用中，可能需要面对多个参数的调优。

    In [68]: 
  

 
           from sklearn.grid_search import GridSearchCV 
           ​ 
           decision_tree_classifier = DecisionTreeClassifier() 
           ​ 
           parameter_grid = {'max_depth': [1, 2, 3, 4, 5], 
                             'max_features': [1, 2, 3, 4]} 
           ​ 
           cross_validation = StratifiedKFold(all_classes, n_folds=10) 
           ​ 
           grid_search = GridSearchCV(decision_tree_classifier, 
                                      param_grid=parameter_grid, 
                                      cv=cross_validation) 
           ​ 
           grid_search.fit(all_inputs, all_classes) 
           print('Best score: {}'.format(grid_search.best_score_)) 
           print('Best parameters: {}'.format(grid_search.best_params_))

Best score: 0.959731543624161
Best parameters: {'max_depth': 3, 'max_features': 3}

现在，让我们用图形的方式，来看看网格搜索的参数关系。

In [32]:

 
       
     
 
           grid_visualization = [] 
           ​ 
           for grid_pair in grid_search.grid_scores_: 
               grid_visualization.append(grid_pair.mean_validation_score) 
                
           grid_visualization = np.array(grid_visualization) 
           grid_visualization.shape = (5, 4) 
           sb.heatmap(grid_visualization, cmap='Blues') 
           plt.xticks(np.arange(4) + 0.5, grid_search.param_grid['max_features']) 
           plt.yticks(np.arange(5) + 0.5, grid_search.param_grid['max_depth'][::-1]) 
           plt.xlabel('max_features') 
           plt.ylabel('max_depth') 
          

      Out[32]: 
    

<matplotlib.text.Text at 0x217ae4f978>

现在我们对这个模型的参数有了更好的感觉：决策树的最大深度max_depth至少是2，而不是做一次性的决定。

max_features 参数对模型的影响似乎不大，只要有2个就够了。考虑到我们的数据集只有4个参数，而且相对来说比较容易分类。

让我们继续使用一个更宽泛的网格搜索，寻找一个最佳的参数组合。

    In [33]: 
  

 
           decision_tree_classifier = DecisionTreeClassifier() 
           ​ 
           parameter_grid = {'criterion': ['gini', 'entropy'], 
                             'splitter': ['best', 'random'], 
                             'max_depth': [1, 2, 3, 4, 5], 
                             'max_features': [1, 2, 3, 4]} 
           ​ 
           cross_validation = StratifiedKFold(all_classes, n_folds=10) 
           ​ 
           grid_search = GridSearchCV(decision_tree_classifier, 
                                      param_grid=parameter_grid, 
                                      cv=cross_validation) 
           ​ 
           grid_search.fit(all_inputs, all_classes) 
           print('Best score: {}'.format(grid_search.best_score_)) 
           print('Best parameters: {}'.format(grid_search.best_params_))

Best score: 0.9664429530201343
Best parameters: {'criterion': 'gini', 'max_depth': 3, 'max_features': 3, 'splitter': 'best'}

现在我们可以说通过网格搜索，找到了一个最佳的分类器：

In [35]:

 
           decision_tree_classifier = grid_search.best_estimator_ 
           decision_tree_classifier

Out[35]:

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=3,
            max_features=3, max_leaf_nodes=None, min_impurity_split=1e-07,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')