sklearn
guofei_fly
这个作者很懒,什么都没留下…
展开
-
sklearn中的SVM模型
支持向量机(SVM)是一种强大的可用于监督式学习分类问题和回归问题,以及非监督式异常检测问题等的常见算法。针对该算法,sklearn中提供了比较丰富的实现模型,其主要种类和主要差别见下表: 模型类型 主要特点 LinearSVC 基于liblinear库的SVM分类模型,仅支持线性核,可调节损失函数和惩罚项。多分类问题采用'ovr'策略。不支...原创 2020-01-15 17:18:10 · 3419 阅读 · 2 评论 -
sklearn中的线性回归模型
sklearn中拥有有非常庞大的线性回归模型家族,采用各种算法用以解决各类线性回归问题。不同的线性回归模型的参数设置、模型方法和调参策略并不一样,本文并不具体介绍每个模型的具体接口和使用事项,仅简单梳理下sklearn中的部分线性回归模型。线性回归模型按照正则化策略:可分为普通回归问题(无正则化项)、L1正则(Lasso问题)、L2正则(Ridge问题)和弹性网ElasticNet(L1正则+L...原创 2020-01-08 13:23:10 · 1229 阅读 · 0 评论 -
sklearn进行StratifiedShuffleSplit时的index问题
1. 问题的提出sklearn中常采用StratifiedShuffleSplit对样本进行分层采样,其返回数据集划分后对应训练集和测试集的index。如果我们的样本数据类型为pandas.DataFrame,其也自带index属性,那这两个index有无联系呢?2. 问题的分析下文为一个简单的测试:from sklearn.model_selection import Stratifie...原创 2019-12-24 17:41:12 · 683 阅读 · 0 评论 -
sklearn中的LogisticRegression模型
LogisticRegression是一种广义线性分类模型,其可通过模拟数据的伯努利分布(对于二分类问题)和多项式分布(对于多分类问题)参数,对样本所属各分类的概率值进行预测。1. 模型的主要参数在sklearn中, LogisticRegression模型的主要参数包括: 模型参数 Parameter含义 备注 penalty ...原创 2019-12-24 15:58:00 · 3838 阅读 · 2 评论 -
Xgboost库的使用
使用Xgboost模型需使用单独的Xgboost库,该库提供了两种Python接口风格。一种是XGBoost自带的原生Python API接口,另一种是sklearn风格的API接口,两者的实现方案基本一致,仅有细微的API使用的不同(此外,部分原生的参数并未在sklearn风格的API接口中实现),在执行效率上原生接口往往更胜一筹,但sklearn风格更容易与其它sklearn中的算法模型进行比...原创 2019-12-16 23:33:07 · 2920 阅读 · 0 评论 -
sklearn中的Adaboost模型
Adaboost算法是基于样本权重调整的集成模型框架。该框架可分别作用于不同的基学习器上(当然必须满足一定的要求)来解决分类和回归问题。1. 模型的主要参数与Bagging和GBM等集成算法一样,Adaboost算法存在两大类型的参数,分别为框架参数和基学习器参数。1.1 框架参数框架参数用于限定各子学习器间的迭代和组合关系。主要包括: 模型参数 Paramete...原创 2019-12-16 19:00:51 · 1175 阅读 · 0 评论 -
sklearn中的GBDT模型
和随机森林模型类似,scikit-learn中的GBDT模型也是基于决策树模型的集成算法,区别在于前者基于并行的bagging框架,而后者基于串行的boosting框架。将boosting框架作用于CART树上,分别有适用于分类问题的GBDTClassifier和适用于回归问题的GBDTRegressor。两者在参数设定、调参等方面均极为类似。1. 模型的主要参数在GBDT中,存在两大类型...原创 2019-12-16 15:37:16 · 2513 阅读 · 0 评论 -
scikit-learn中的随机森林模型
和决策树模型类似,scikit-learn中的随机森林模型也提供了基于普通Decision Tree的Random Forest学习器和基于随机化Extra Tree的ExtraTrees学习器。鉴于Decision Tree和Extra Tree差别甚小,本文以Random Forest为例进行介绍。1. 模型的主要参数在Random Forest中,存在两大类型的参数,分别为框架参数和...原创 2019-12-12 16:08:33 · 516 阅读 · 0 评论 -
scikit-learn中的决策树模型
scikit-learn决策树算法类库采用优化的CART树算法用来解决分类和回归问题,其具体实现类包括DecisionTreeClassifier、DecisionTreeRegressor、ExtraTreeClassifier和ExtraTreeRegressor。其中,DecisionTreeClassifier和ExtraTreeClassifier用于解决分类问题,而DecisionTr...原创 2019-12-11 10:51:31 · 1708 阅读 · 0 评论