sklearn
文章平均质量分 83
Chercheer
道阻且长
展开
-
Sklearn-LogisticRegression逻辑回归
逻辑回归:可以做概率预测,也可用于分类,仅能用于线性问题。通过计算真实值与预测值的概率,然后变换成损失函数,求损失函数最小值来计算模型参数,从而得出模型。sklearn.linear_model.LogisticRegression官方API:官方API:http://scikit-learn.org/stable/modules/generated/sklearn.line原创 2017-02-06 11:19:53 · 54016 阅读 · 5 评论 -
Sklearn-preprocessing.scale/StandardScaler/MinMaxScaler
标准化数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。这样去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是0-1标准化和Z标准化0-1标准化(0-1 normalization) 也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:其中m原创 2017-02-20 12:11:30 · 11208 阅读 · 1 评论 -
Sklearn-CrossValidation交叉验证
交叉验证概述进行模型验证的一个重要目的是要选出一个最合适的模型,对于监督学习而言,我们希望模型对于未知数据的泛化能力强,所以就需要模型验证这一过程来体现不同的模型对于未知数据的表现效果。最先我们用训练准确度(用全部数据进行训练和测试)来衡量模型的表现,这种方法会导致模型过拟合;为了解决这一问题,我们将所有数据分成训练集和测试集两部分,我们用训练集进行模型训练,得到的模型再用测试集来衡量模型原创 2017-02-11 21:08:21 · 36562 阅读 · 2 评论 -
Sklearn-GBDT(GradientBoostingDecisonTree)梯度提升树
GBDT类库概述GBDT有很多简称,有GBT(Gradient Boosting Tree), GTB(Gradient Tree Boosting), GBRT(Gradient Boosting Regression Tree),MART(Multiple Additive Regression Tree),其实都是指的同一种算法。sklearn中称为GradientTree原创 2017-02-11 14:10:38 · 16616 阅读 · 3 评论 -
Sklearn-PolynomialFeatures()
sklearn类:classsklearn.preprocessing.PolynomialFeatures(degree=2,interaction_only=False, include_bias=True)专门产生多项式的,并且多项式包含的是相互影响的特征集。比如:一个输入样本是2维的。形式如[a,b] ,则二阶多项式的特征集如下[1,a,b,a^2,ab,b^2]。参数解释原创 2017-02-19 22:33:05 · 2485 阅读 · 2 评论 -
sklearn.metrics中的评估方法介绍(accuracy_score, recall_score, roc_curve, roc_auc_score, confusion_matrix)
accuracy_score分类准确率分数是指所有分类正确的百分比。分类准确率这一衡量分类器的标准比较容易理解,但是它不能告诉你响应值的潜在分布,并且它也不能告诉你分类器犯错的类型。形式:sklearn.metrics.accuracy_score(y_true, y_pred, normalize=True, sample_weight=None)normalize:默认原创 2017-02-19 21:15:16 · 96113 阅读 · 1 评论 -
Sklearn-RandomForest随机森林
在scikit-learn中,RandomForest的分类类是RandomForestClassifier,回归类是RandomForestRegressor,需要调参的参数包括两部分,第一部分是Bagging框架的参数,第二部分是CART决策树的参数。sklearn官网地址(RandomForestClassifier):http://scikit-learn.org/stable/mod原创 2017-02-10 16:28:42 · 70428 阅读 · 13 评论 -
Sklearn-GridSearchCV网格搜索
GridSearchCV,它存在的意义就是自动调参,只要把参数输进去,就能给出最优化的结果和参数。但是这个方法适合于小数据集,一旦数据的量级上去了,很难得出结果。这个时候就是需要动脑筋了。数据量比较大的时候可以使用一个快速调优的方法——坐标下降。它其实是一种贪心算法:拿当前对模型影响最大的参数调优,直到最优化;再拿下一个影响最大的参数调优,如此下去,直到所有的参数调整完毕。这个方法的缺点就是可能会原创 2017-02-10 14:44:45 · 39942 阅读 · 6 评论 -
利用sklearn进行集成学习之相关理论
转自http://www.cnblogs.com/jasonfreak/p/5657196.html集成学习的几个主要算法讲的精简易懂,特别是集成学习过程中的调参涉及到的理论部分,特别是对偏差和方差有了更直观的理解,以及几个不同的损失函数归纳,第四部分的公式需要配合《统计学习方法》理解。 目录1 前言2 集成学习是什么?3 偏差和方差3.1 模型的偏差和方差是什么?转载 2017-02-07 20:39:27 · 1761 阅读 · 0 评论 -
利用sklearn进行集成学习之调参
转自:http://www.cnblogs.com/jasonfreak/p/5720137.html目录1 Random Forest和Gradient Tree Boosting参数详解2 如何调参?2.1 调参的目标:偏差和方差的协调2.2 参数对整体模型性能的影响2.3 一个朴实的方案:贪心的坐标下降法2.3.1 Random Forest调参案例:Digit转载 2017-02-09 14:39:00 · 6425 阅读 · 1 评论 -
Sklearn-train_test_split随机划分训练集和测试集
sklearn.model_selection.train_test_split随机划分训练集和测试集官网文档:http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html#sklearn.model_selection.train_test_split一般形原创 2017-02-05 15:06:15 · 122719 阅读 · 23 评论 -
Sklearn-preprocessing.PolynomialFeatures
在建模过程中多次用到过sklearn.preprocessing.PolynomialFeatures,可以理解为专门生成多项式特征,并且多项式包含的是相互影响的特征集,比如:一个输入样本是2维的。形式如[a,b] ,则二阶多项式的特征集如下[1,a,b,a^2,ab,b^2]。官网文档:http://scikit-learn.org/stable/modules/generated/原创 2017-05-05 20:48:51 · 4206 阅读 · 0 评论