机器学习网格搜索寻找最优参数

最新推荐文章于 2024-07-31 16:53:54 发布

呵呵镜

最新推荐文章于 2024-07-31 16:53:54 发布

阅读量5.8k

点赞数 11

分类专栏：大数据 python 文章标签：机器学习 Python 网格搜索决策树大数据

本文链接：https://blog.csdn.net/liujing319/article/details/95477391

版权

本文介绍了使用网格搜索进行参数调优的方法，通过决策树数据集的可视化展示，解释了过拟合现象。文章指出，在max_depth=4时，训练集和测试集得分最接近。利用网格搜索找到最优参数max_depth和min_samples_leaf，优化后的模型分类效果显著提升。

摘要由CSDN通过智能技术生成

整理一下前阶段复习的关于网格搜索的知识：

程序及数据请到github 上下载 GridSearch练习

网格搜索是将训练集训练的一堆模型中，选取超参数的所有值（或者代表性的几个值），将这些选取的参数及值全部列出一个表格，并分别将其进行模拟，选出最优模型。

上面是数据集的可视化分布图，具体代码如下：

%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

data = pd.read_csv('data/grid.csv',header=None)
X = data[[0,1]]
y = data[2]
#print(y)
X_blue = data[data[2]== 0]
X_red = data[data[2]== 1]
plt.scatter(X_blue[0],X_blue[1],c='blue',edgecolor='k',s=50)
plt.scatter(X_red[0],X_red[1],c='red',edgecolor='k',s=50)
plt.xlim(-2.05,2.05)
plt.ylim(-2.05,2.05)

采用决策树来训练数据

from sklearn.tree import DecisionTreeClassifier
clf = DecisionTreeClassifier(random_state=42)
clf.fit(X_train,y_train)

train_predictions = clf.predict(X_train)
test_predictions = clf.predict(X_test)
print(clf.get_params())

数据分类可视化自定义函数的代码如下：

def plot_model(X, y, clf):
    plt.scatter(X_blue[0],X_blue[1],c='blue',edgecolor='k',s=50)
    plt.scatter(X_red[0],X_red[1],c='red',edgecolor='k',s=50)