Sklearn工具(第三天)
一、计算机生成的数据集 sklearn.datasets.make_
二、SKLearn中的模型选择体系
(一)数据集划分方法
(1)K折交叉验证
(2)留一法
(3) 随机划分法
(二)超参数优化方法
(1)什么是超参数(hyper-parameters)
(2)网格搜索穷举式超参数优化方法
(3)随机采样式超参数优化方法
RandomizedSearchCV实现了一个在参数空间上进行随机搜索的机制,其中参数的取值是从某
种概率分布中抽取的。这个概率分布描述了对应的参数的所有取值情况的可能性。这种随机采
样机制与网络穷举搜索相比,有两大优点:
1、相比于整体参数空间,可以选择相对较少的参数组合数量。
2、添加参数节点不影响性能,不会降低效率。
(4)超参数空间的搜索技巧
(三)模型验证方法
(1)通过交叉验证计算得分
(2)对每个输入数据点产生交叉验证估计
(3)计算并绘制模型的学习率曲线
(4)计算并绘制模型的验证曲线
(5)通过排序评估交叉验证的分的重要性
(四)SKLearn模型预测性能的评估方法
(1)Estimator对象的score方法
(2)在交叉验证中使用scoring参数