sklearn
文章平均质量分 87
码灵薯
赖得住寂寞才守得住繁华,该奋斗的年纪就不应该选择安逸。
勤学下工夫,求得真学问,修德重实践,明辨善决断,笃实做人事。
展开
-
以SVM为例学习scikit-learn以及matplotlib绘图
numpy库1、np.meshgrid()2、mgrid3、np.ravel()和np.flatten()4、np.r_ , np.c_5、numpy.squeeze()matplotlib库1、scatter2、axis3、contour与contourf官方不同核函数SVM比较代码numpy库1、np.meshgrid()作用:用坐标轴上...原创 2018-01-28 16:18:48 · 6119 阅读 · 0 评论 -
随机森林sklearn FandomForest,及其调参
随机森林概述随机森林是集成学习方法bagging类中的翘楚。与集成学习boosting类的GBDT分庭抗礼。bagging类集成学习采用的方法是:用部分数据 or 部分特征 or 多个算法 训练一些模型;然后再组合这些模型,对于分类问题采用投票多数表决,回归问题采用求平均。各个模型训练之间互不影响,天生就适合并行化处理。在如今大数据时代背景下很有诱惑力。 主要效果:重点关注降低方差,...原创 2018-03-14 18:30:04 · 22653 阅读 · 4 评论 -
sklearn 中Gradient Boosting Machine(GBM)调参方法
原文地址:Complete Guide to Parameter Tuning in Gradient Boosting (GBM) in Python by Aarshay Jain 原文翻译与校对:@酒酒Angie(drmr_anki@qq.com) && 寒小阳(hanxiaoyang.ml@gmail.com) 时间:2016年9月。 出处:http://blo...转载 2018-03-14 22:44:17 · 6833 阅读 · 0 评论 -
交叉验证(cross validation)
交叉验证(cross validation)交叉验证是经常使用的模型性能评估方法,从而进行模型选择。对不同的模型参数进行训练得到的模型也不一样,所有交叉验证也可以用于模型参数选择。当数据集充足时,进行模型选择的一种简单的方法是,将数据集分成三部分:训练集(train set),验证集(validation set),测试集(test set)。训练集用于训练模型,验证集用于选择模型,测试集...原创 2018-03-13 17:19:21 · 1012 阅读 · 0 评论 -
sklearn-GridSearchCV调节超参数
sklearn-GridSearchCV调节超参数同样的模型不同的参数下,模型的得分差距很大。sklearn中提供了参数调节函数:GridSearchCV。将待挑选的参数输入,可以自动的挑选最佳的参数和结果。 缺陷: 一旦模型的量级上去之后,将需要很长的时间函数才能运行完成。因为该函数执行一次所训练和测试的次数为:优化参数组合数*K(K折交叉验证)。当数据集很大时,多次反复训练模型将非...原创 2018-03-13 18:27:37 · 1918 阅读 · 0 评论 -
学习曲线(learning curve)来判断模型状态:过拟合欠拟合
学习曲线(learning curve)来判断模型状态:过拟合欠拟合学习曲线是什么学习曲线是不同训练集大小,模型在训练集和验证集上的得分变化曲线。也就是以样本数为横坐标,训练和交叉验证集上的得分(如准确率)为纵坐标。learning curve可以帮助我们判断模型现在所处的状态:过拟合(overfiting / high variance) or 欠拟合(underfitting / ...原创 2018-03-13 21:52:41 · 17014 阅读 · 2 评论