在Python中重要的机器学习库scikit-learn的算法模型应用中涉及各类关键参数,那么,如果选择及调整这些参数才能优化模型运行结果呢?下面介绍一下机器学习算法中常用的调参神器之一的:学习曲线。
学习曲线
参数学习曲线是一条以不同的参数取值为横坐标,不同参数取值下的模型结果为纵坐标的曲线,我们可以选择模型表现最佳点的参数取值为参数赋值。
代码实现
#导包
import numpy as np
import pandas as pd
#sklearn.datasets中的breast_cancer数据集为例
from sklearn.datasets import load_breast_cancer
# 探索数据集
data = load_breast_cancer()
#提取特征数据集
X = data.data
X.shape
运行结果
(569, 30)
#提取标签数据集
y = data.target
y.shape
运行结果
(569,)
#查看特征变量名
data.feature_names
运行结果
array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
'mean smoothness', 'mean compactness', 'mean concavity',
'mean concave points', 'mean symmetry', 'mean fractal dimension',
'radius error', 'texture error', 'perimeter error'