scikit-learn API
这是scikit-learn的类和函数参考。有关详细信息,请参阅完整的用户指南,因为类和功能原始规格可能不足以提供有关其用途的完整指南。
sklearn.base
:基类和实用函数
所有估算器的基类。
基类
base.BaseEstimator:scikit-learn中所有估算器的基类
base.BiclusterMixin:Mixin类适用于scikit-learn中的所有bicluster估算器
base.ClassifierMixin:Mixin类适用于scikit-learn中的所有分类器。
base.ClusterMixin:Mixin类用于scikit-learn中的所有聚类估计器。
base.DensityMixin:Mixin类适用于scikit-learn中的所有密度估算器。
base.RegressorMixin:Mixin类用于scikit-learn中的所有回归估计。
base.TransformerMixin:Mixin课程适用于scikit-learn中的所有变形金刚。
功能
base.clone(estimator[, safe]):构造具有相同参数的新估计器。
config_context(**new_config):用于全局scikit-learn配置的上下文管理器
get_config():检索配置的当前值 set_config
set_config([assume_finite]):设置全局scikit-learn配置
sklearn.calibration
: 概率校准
预测概率的校准。
用户指南:有关详细信息,请参阅概率校准部分。
calibration.CalibratedClassifierCV([…]):使用等渗回归或乙状结肠进行概率校准。
calibration.calibration_curve(y_true, y_prob):计算校准曲线的真实和预测概率。
sklearn.cluster
: 聚类
该sklearn.cluster
模块收集了流行的无监督聚类算法。
用户指南:有关详细信息,请参阅“ 群集”部分。
类
cluster.AffinityPropagation([damping, …]):执行亲和力传播数据聚类。
cluster.AgglomerativeClustering([…]):凝聚聚类
cluster.Birch([threshold, branching_factor, …]):实现Birch聚类算法。
cluster.DBSCAN([eps, min_samples, metric, …]):从矢量数组或距离矩阵执行DBSCAN聚类。
cluster.FeatureAgglomeration([n_clusters, …]):聚集功能。
cluster.KMeans([n_clusters, init, n_init, …]):K-Means聚类
cluster.MiniBatchKMeans([n_clusters, init, …]):Mini-Batch K-Means聚类
cluster.MeanShift([bandwidth, seeds, …]):使用平坦内核的平均移位聚类。
cluster.SpectralClustering([n_clusters, …]):将聚类应用于规范化拉普拉斯的投影。
功能
cluster.affinity_propagation(S[, …]):执行亲和力传播数据聚类
cluster.dbscan(X[, eps, min_samples, …]):从矢量数组或距离矩阵执行DBSCAN聚类。
cluster.estimate_bandwidth(X[, quantile, …]):估计要使用均值平移算法的带宽。
cluster.k_means(X, n_clusters[, init, …]):K均值聚类算法。
cluster.mean_shift(X[, bandwidth, seeds, …]):使用平面内核执行数据的均值漂移聚类。
cluster.spectral_clustering(affinity[, …]):将聚类应用于规范化拉普拉斯的投影。
cluster.ward_tree(X[, connectivity, …]):基于特征矩阵的Ward聚类。
sklearn.cluster.bicluster
: 双聚类
频谱双聚类算法。
作者:Kemal Eren许可证:BSD 3条款
用户指南:有关详细信息,请参阅“ Biclustering”部分。
类
SpectralBiclustering([n_clusters, method, …]):光谱双聚(Kluger,2003)。
SpectralCoclustering([n_clusters, …]):频谱协同聚类算法(Dhillon,2001)。
sklearn.covariance
: 协方差估计器
该sklearn.covariance
模块包括用于在给定一组点的情况下稳健地估计特征的协方差的方法和算法。还估计定义为协方差的倒数的精度矩阵。协方差估计与高斯图形模型理论密切相关。
用户指南:有关详细信息,请参阅协方差估计部分。
covariance.EmpiricalCovariance([…]):最大似然协方差估计
covariance.EllipticEnvelope([…]):用于检测高斯分布式数据集中的异常值的对象。
covariance.GraphLasso([alpha, mode, tol, …]):利用l1惩罚估计量的稀疏逆协方差估计。
covariance.GraphLassoCV([alphas, …]):稀疏逆协方差w /交叉验证的l1惩罚选择
covariance.LedoitWolf([store_precision, …]):LedoitWolf Estimator
covariance.MinCovDet([store_precision, …]):最小协方差行列式(MCD):协方差的稳健估计。
covariance.OAS([store_precision, …]):Oracle近似收缩估算器
covariance.ShrunkCovariance([…]):具有收缩的协方差估计
covariance.empirical_covariance(X[, …]):计算最大似然协方差估计
covariance.graph_lasso(emp_cov, alpha[, …]):l1-惩罚协方差估计
covariance.ledoit_wolf(X[, assume_centered, …]):估计缩小的Ledoit-Wolf协方差矩阵。
covariance.oas(X[, assume_centered]):估计与Oracle近似收缩算法的协方差。
covariance.shrunk_covariance(emp_cov[, …]):计算在对角线上收缩的协方差矩阵
sklearn.cross_decomposition
: 交叉分解
用户指南:有关详细信息,请参阅交叉分解部分。
cross_decomposition.CCA([n_components, …]):CCA典型相关分析。
cross_decomposition.PLSCanonical([…]):PLSCanonical实现了原始Wold算法[Tenenhaus 1998] p.204的2个块规范PLS,在[Wegelin 2000]中称为PLS-C2A。
cross_decomposition.PLSRegression([…]):PLS回归
cross_decomposition.PLSSVD([n_components, …]):偏最小二乘SVD
sklearn.datasets
: 数据集
该sklearn.datasets
模块包括用于加载数据集的实用程序,包括加载和获取常用参考数据集的方法。它还具有一些人工数据生成器。
用户指南:有关详细信息,请参阅“ 数据集装入实用程序”部分。
装载机
datasets.clear_data_home([data_home]):删除数据主缓存的所有内容。
datasets.dump_svmlight_file(X, y, f[, …]):以svmlight / libsvm文件格式转储数据集。
datasets.fetch_20newsgroups([data_home, …]):从20个新闻组数据集加载文件名和数据。
datasets.fetch_20newsgroups_vectorized([…]):加载20个新闻组数据集并将其转换为tf-idf向量。
datasets.fetch_california_housing([…]):来自StatLib的加州住房数据集的装载机。
datasets.fetch_covtype([data_home, …]):加载隐藏数据集,必要时下载。
datasets.fetch_kddcup99([subset, data_home, …]):加载并返回kddcup 99数据集(分类)。
datasets.fetch_lfw_pairs([subset, …]):野外标记面(LFW)对数据集的加载器
datasets.fetch_lfw_people([data_home, …]):野外Labeled Faces(LFW)人数据集的加载器
datasets.fetch_mldata(dataname[, …]):获取mldata.org数据集
datasets.fetch_olivetti_faces([data_home, …]):Olivetti的装载机面向AT&T的数据集。
datasets.fetch_rcv1([data_home, subset, …]):加载RCV1多标记数据集,必要时下载。
datasets.fetch_species_distributions([…]):菲利普斯等物种分布数据集的载体。
datasets.get_data_home([data_home]):返回scikit-learn数据目录的路径。
datasets.load_boston([return_X_y]):加载并返回波士顿房价数据集(回归)。
datasets.load_breast_cancer([return_X_y]):加载并返回乳腺癌威斯康星数据集(分类)。
datasets.load_diabetes([return_X_y]):加载并返回糖尿病数据集(回归)。
datasets.load_digits([n_class, return_X_y]):加载并返回数字数据集(分类)。
datasets.load_files(container_path[, …]):加载带有类别的文本文件作为子文件夹名称。
datasets.load_iris([return_X_y]):加载并返回虹膜数据集(分类)。
datasets.load_linnerud([return_X_y]):加载并返回linnerud数据集(多元回归)。
datasets.load_mlcomp(name_or_id[, set_, …]):弃用:由于http://mlcomp.org/网站将于2017年3月关闭,因此在0.19版本中不推荐使用load_mlcomp函数,并且将在0.21中删除该函数。
datasets.load_sample_image(image_name):加载单个样本图像的numpy数组
datasets.load_sample_images():加载样本图像以进行图像处理。
datasets.load_svmlight_file(f[, n_features, …]):将svmlight / libsvm格式的数据集加载到稀疏CSR矩阵中
datasets.load_svmlight_files(files[, …]):以SVMlight格式从多个文件加载数据集
datasets.load_wine([return_X_y]):加载并返回葡萄酒数据集(分类)。
datasets.mldata_filename(dataname):转换mldata.org文件名中数据集的原始名称。
样本生成器
datasets.make_biclusters(shape, n_clusters):生成具有恒定块对角线结构的阵列,用于双聚类。
datasets.make_blobs([n_samples, n_features, …]):生成各向同性高斯blob用于聚类。
datasets.make_checkerboard(shape, n_clusters):生成具有用于双聚类的块棋盘结构的数组。
datasets.make_circles([n_samples, shuffle, …]):在2d中制作一个包含较小圆圈的大圆圈。
datasets.make_classification([n_samples, …]):生成随机的n级分类问题。
datasets.make_friedman1([n_samples, …]):生成“弗里德曼#1”回归问题
datasets.make_friedman2([n_samples, noise, …]):生成“弗里德曼#2”回归问题
datasets.make_friedman3([n_samples, noise, …]):生成“弗里德曼#3”回归问题
datasets.make_gaussian_quantiles([mean, …]):通过分位数生成各向同性高斯和标签样本
datasets.make_hastie_10_2([n_samples, …]):生成Hastie等人使用的二进制分类数据。
datasets.make_low_rank_matrix([n_samples, …]):生成具有钟形奇异值的大多数低秩矩阵
datasets.make_moons([n_samples, shuffle, …]):制作两个交错的半圈
datasets.make_multilabel_classification([…]):生成随机多标签分类问题。
datasets.make_regression([n_samples, …]):生成随机回归问题。
datasets.make_s_curve([n_samples, noise, …]):生成S曲线数据集。
datasets.make_sparse_coded_signal(n_samples, …):生成信号作为字典元素的稀疏组合。
datasets.make_sparse_spd_matrix([dim, …]):生成稀疏对称确定正矩阵。
datasets.make_sparse_uncorrelated([…]):使用稀疏不相关设计生成随机回归问题
datasets.make_spd_matrix(n_dim[, random_state]):生成随机对称正定矩阵。
datasets.make_swiss_roll([n_samples, noise, …]):生成瑞士卷数据集。
sklearn.decomposition
: 矩阵分解
该sklearn.decomposition
模块包括矩阵分解算法,包括PCA,NMF或ICA。该模块的大多数算法可以被视为降维技术。
用户指南:有关详细信息,请参阅组件中的分解信号(矩阵分解问题)部分。
decomposition.FactorAnalysis([n_components, …]):因子分析(FA)decomposition.DictionaryLearning([…]):字典学习
decomposition.FastICA([n_components, …]):FastICA:独立分量分析的快速算法。
decomposition.IncrementalPCA([n_components, …]):增量主成分分析(IPCA)。
decomposition.KernelPCA([n_components, …]):核主成分分析(KPCA)
decomposition.LatentDirichletAllocation([…]):具有在线变分贝叶斯算法的潜在Dirichlet分配
decomposition.MiniBatchDictionaryLearning([…]):小批量字典学习
decomposition.MiniBatchSparsePCA([…]):小批量稀疏主成分分析
decomposition.NMF([n_components, init, …]):非负矩阵分解(NMF)
decomposition.PCA([n_components, copy, …]):主成分分析(PCA)
decomposition.SparsePCA([n_components, …]):稀疏主成分分析(SparsePCA)
decomposition.SparseCoder(dictionary[, …]):稀疏编码
decomposition.TruncatedSVD([n_components, …]):使用截断的SVD(aka LSA)降低尺寸。
decomposition.dict_learning(X, n_components, …):解决字典学习矩阵分解问题。
decomposition.dict_learning_online(X[, …]):在线解决字典学习矩阵分解问题。
decomposition.fastica(X[, n_components, …]):执行快速独立分量分析。
decomposition.sparse_encode(X, dictionary[, …]):稀疏编码
sklearn.discriminant_analysis
: 判别分析
线性判别分析与二次判别分析
用户指南:有关详细信息,请参阅“ 线性和二次判别分析”部分。
discriminant_analysis.LinearDiscriminantAnalysis([…]):线性判别分析
discriminant_analysis.QuadraticDiscriminantAnalysis([…]):二次判别分析
sklearn.dummy
: 虚拟估算器
用户指南:有关详细信息,请参阅模型评估:量化预测质量部分。
dummy.DummyClassifier([strategy, …]):DummyClassifier是一个使用简单规则进行预测的分类器。
dummy.DummyRegressor([strategy, constant, …]):DummyRegressor是一个使用简单规则进行预测的回归量。
sklearn.ensemble
: 合奏方法
该sklearn.ensemble
模块包括用于分类,回归和异常检测的基于集合的方法。
用户指南:有关详细信息,请参阅“ 集合方法”部分。
ensemble.AdaBoostClassifier([…]):AdaBoost分类器。
ensemble.AdaBoostRegressor([base_estimator, …]):一个AdaBoost回归量。
ensemble.BaggingClassifier([base_estimator, …]):Bagging分类器。
ensemble.BaggingRegressor([base_estimator, …]):Bagging回归量。
ensemble.ExtraTreesClassifier([…]):一个额外的树分类器。
ensemble.ExtraTreesRegressor([n_estimators, …]):一棵树外的回归者。
ensemble.GradientBoostingClassifier([loss, …]):Gradient Boosting用于分类。
ensemble.GradientBoostingRegressor([loss, …]):渐变提升回归。
ensemble.IsolationForest([n_estimators, …]):隔离森林算法
ensemble.RandomForestClassifier([…]):随机森林分类器。
ensemble.RandomForestRegressor([…]):一个随机的森林回归者。
ensemble.RandomTreesEmbedding([…]):一群完全随机的树木。
ensemble.VotingClassifier(estimators[, …]):用于不合适估算器的软投票/多数规则分类器。
部分依赖
树集合的部分依赖图。
ensemble.partial_dependence.partial_dependence(…):部分依赖target_variables。
ensemble.partial_dependence.plot_partial_dependence(…):部分依赖图features。
sklearn.exceptions
: 异常和警告
该sklearn.exceptions
模块包括scikit-learn中使用的所有自定义警告和错误类。
exceptions.ChangedBehaviorWarning:警告类用于通知用户行为的任何更改。
exceptions.ConvergenceWarning:自定义警告以捕获收敛问题
exceptions.DataConversionWarning:警告用于通知代码中发生的隐式数据转换。
exceptions.DataDimensionalityWarning:自定义警告,用于通知数据维度的潜在问题。
exceptions.EfficiencyWarning:警告用于通知用户计算效率低下。
exceptions.FitFailedWarning:如果在拟合估算器时出错,则使用警告类。
exceptions.NotFittedError:如果在拟合之前使用估算器,则引发异常类。
exceptions.NonBLASDotWarning:点操作不使用BLAS时使用的警告。
exceptions.UndefinedMetricWarning:度量标准无效时使用的警告
sklearn.feature_extraction
: 特征提取
该sklearn.feature_extraction
模块处理原始数据的特征提取。它目前包括从文本和图像中提取特征的方法。
用户指南:有关详细信息,请参阅功能提取部分。
feature_extraction.DictVectorizer([dtype, …]):将特征值映射列表转换为向量。
feature_extraction.FeatureHasher([…]):实现功能散列,即哈希技巧。
来自文本来自图像
该sklearn.feature_extraction.image
子模块收集实用程序从图像中提取特征。
feature_extraction.image.extract_patches_2d(…):将2D图像重塑为一组补丁
feature_extraction.image.grid_to_graph(n_x, n_y):像素到像素连接的图表
feature_extraction.image.img_to_graph(img[, …]):像素到像素梯度连接的图形
feature_extraction.image.reconstruct_from_patches_2d(…):从其所有补丁重建图像。
feature_extraction.image.PatchExtractor([…]):从一组图像中提取补丁
该sklearn.feature_extraction.text
子模块收集实用程序从文本文档建立特征向量。
feature_extraction.text.CountVectorizer([…]):将文本文档集合转换为令牌计数矩阵
feature_extraction.text.HashingVectorizer([…]):将文本文档集合转换为令牌出现的矩阵
feature_extraction.text.TfidfTransformer([…]):将计数矩阵转换为标准化的tf或tf-idf表示
feature_extraction.text.TfidfVectorizer([…]):将原始文档集合转换为TF-IDF特征矩阵。
sklearn.feature_selection
: 特征选择
该sklearn.feature_selection
模块实现了特征选择算法。它目前包括单变量滤波器选择方法和递归特征消除算法。
用户指南:有关详细信息,请参阅功能选择部分。
feature_selection.GenericUnivariateSelect([…]):具有可配置策略的单变量特征选择器。
feature_selection.SelectPercentile([…]):根据最高分的百分位数选择要素。
feature_selection.SelectKBest([score_func, k]):根据k个最高分选择功能。
feature_selection.SelectFpr([score_func, alpha]):过滤:根据FPR测试选择低于alpha的pvalues。
feature_selection.SelectFdr([score_func, alpha]):过滤:选择估计的错误发现率的p值
feature_selection.SelectFromModel(estimator):元变换器,用于根据重要性权重选择特征。
feature_selection.SelectFwe([score_func, alpha]):过滤:选择与家庭错误率对应的p值
feature_selection.RFE(estimator[, …]):具有递归特征消除的特征排名。
feature_selection.RFECV(estimator[, step, …]):功能排名具有递归功能消除和交叉验证选择最佳功能。
feature_selection.VarianceThreshold([threshold]):删除所有低方差特征的特征选择器。
feature_selection.chi2(X, y):计算每个非负特征和类之间的卡方统计量。
feature_selection.f_classif(X, y):计算所提供样品的ANOVA F值。
feature_selection.f_regression(X, y[, center]):单变量线性回归测试。
feature_selection.mutual_info_classif(X, y):估计离散目标变量的互信息。
feature_selection.mutual_info_regression(X, y):估计连续目标变量的互信息。
sklearn.gaussian_process
: 高斯过程
该sklearn.gaussian_process
模块实现了基于高斯过程的回归和分类。
用户指南:有关详细信息,请参阅高斯过程部分。
gaussian_process.GaussianProcessClassifier([…]):基于拉普拉斯近似的高斯过程分类(GPC)。
gaussian_process.GaussianProcessRegressor([…]):高斯过程回归(GPR)。
Kernels:
gaussian_process.kernels.CompoundKernel(kernels):内核由一组其他内核组成。
gaussian_process.kernels.ConstantKernel([…]):恒定内核。
gaussian_process.kernels.DotProduct([…]):点 - 产品内核。
gaussian_process.kernels.ExpSineSquared([…]):Exp-Sine-Squared内核。
gaussian_process.kernels.Exponentiation(…):通过给定指数指数内核。
gaussian_process.kernels.Hyperparameter:内核超参数的规范以namedtuple的形式出现。
gaussian_process.kernels.Kernel:所有内核的基类。
gaussian_process.kernels.Matern([…]):Matern内核。
gaussian_process.kernels.PairwiseKernel([…]):sklearn.metrics.pairwise中内核的包装器。
gaussian_process.kernels.Product(k1, k2):两个内核k1和k2的产品核k1 * k2。
gaussian_process.kernels.RBF([length_scale, …]):径向基函数内核(又称平方指数内核)。
gaussian_process.kernels.RationalQuadratic([…]):Rational二次内核。
gaussian_process.kernels.Sum(k1, k2):两个内核k1和k2的Sum-kernel k1 + k2。
gaussian_process.kernels.WhiteKernel([…]):White kernel.
sklearn.isotonic
: 等渗回归
用户指南:有关详细信息,请参阅Isotonic回归部分。
isotonic.IsotonicRegression([y_min, y_max, …]):等渗回归模型.
isotonic.check_increasing(x, y):确定y是否与x单调相关。
isotonic.isotonic_regression(y[, …]):解决等渗回归模型sklearn.kernel_approximation:
内核近似
该sklearn.kernel_approximation
模块基于傅立叶变换实现了几个近似的内核特征映射。
用户指南:有关详细信息,请参阅“ 内核近似”部分。
kernel_approximation.AdditiveChi2Sampler([…]):加性chi2核的近似特征映射。
kernel_approximation.Nystroem([kernel, …]):使用训练数据的子集近似内核映射。
kernel_approximation.RBFSampler([gamma, …]):通过蒙特卡罗近似的傅里叶变换逼近RBF核的特征映射。
kernel_approximation.SkewedChi2Sampler([…]):通过蒙特卡罗近似的傅立叶变换近似“倾斜的卡方”核的特征图。
sklearn.kernel_ridge:核岭回归
模块sklearn.kernel_ridge
实现内核岭回归。
用户指南:有关详细信息,请参阅内核脊回归部分。
kernel_ridge.KernelRidge([alpha, kernel, …]):核岭回归.
sklearn.linear_model
: 广义线性模型
该sklearn.linear_model
模块实现了广义线性模型。它包括利用最小角度回归和坐标下降计算的岭回归,贝叶斯回归,套索和弹性网估计。它还实现了Stochastic Gradient Descent相关算法。
用户指南:有关详细信息,请参阅“ 广义线性模型”部分。
linear_model.ARDRegression([n_iter, tol, …]):贝叶斯ARD回归。
linear_model.BayesianRidge([n_iter, tol, …]):贝叶斯岭回归
linear_model.ElasticNet([alpha, l1_ratio, …]):将L1和L2组合作为正则化器的线性回归。
linear_model.ElasticNetCV([l1_ratio, eps, …]):具有沿正则化路径的迭代拟合的弹性网络模型
linear_model.HuberRegressor([epsilon, …]):线性回归模型对异常值具有鲁棒性。
linear_model.Lars([fit_intercept, verbose, …]):最小角度回归模型又名
linear_model.LarsCV([fit_intercept, …]):交叉验证的最小角度回归模型
linear_model.Lasso([alpha, fit_intercept, …]):使用L1作为正则化器(也称为Lasso)训练的线性模型
linear_model.LassoCV([eps, n_alphas, …]):具有沿正则化路径的迭代拟合的套索线性模型
linear_model.LassoLars([alpha, …]):套索模型适合最小角度回归aka
linear_model.LassoLarsCV([fit_intercept, …]):交叉验证的Lasso,使用LARS算法
linear_model.LassoLarsIC([criterion, …]):Lasso模型适合Lars使用BIC或AIC进行模型选择
linear_model.LinearRegression([…]):普通最小二乘线性回归。
linear_model.LogisticRegression([penalty, …]):逻辑回归(aka logit,MaxEnt)分类器。
linear_model.LogisticRegressionCV([Cs, …]):逻辑回归CV(aka logit,MaxEnt)分类器。
linear_model.MultiTaskLasso([alpha, …]):使用L1 / L2混合范数作为正则化器训练的多任务Lasso模型
linear_model.MultiTaskElasticNet([alpha, …]):使用L1 / L2混合范数作为正则化器训练的多任务ElasticNet模型
linear_model.MultiTaskLassoCV([eps, …]):具有内置交叉验证的多任务L1 / L2套索。
linear_model.MultiTaskElasticNetCV([…]):具有内置交叉验证的多任务L1 / L2 ElasticNet。
linear_model.OrthogonalMatchingPursuit([…]):正交匹配追踪模型(OMP)
linear_model.OrthogonalMatchingPursuitCV([…]):交叉验证的正交匹配追踪模型(OMP)
linear_model.PassiveAggressiveClassifier([…]):被动攻击性分类器
linear_model.PassiveAggressiveRegressor([C, …]):被动攻击性回归
linear_model.Perceptron([penalty, alpha, …]):阅读用户指南中的更多内容。
linear_model.RANSACRegressor([…]):RANSAC(RANdom SAmple Consensus)算法。
linear_model.Ridge([alpha, fit_intercept, …]):具有l2正则化的线性最小二乘法。
linear_model.RidgeClassifier([alpha, …]):使用岭回归的分类器。
linear_model.RidgeClassifierCV([alphas, …]):Ridge分类器,内置交叉验证。
linear_model.RidgeCV([alphas, …]):具有内置交叉验证的岭回归。
linear_model.SGDClassifier([loss, penalty, …]):具有SGD训练的线性分类器(SVM,逻辑回归,ao)。
linear_model.SGDRegressor([loss, penalty, …]):通过最小化SGD的正则化经验损失来拟合线性模型
linear_model.TheilSenRegressor([…]):Theil-Sen Estimator:稳健的多元回归模型。
linear_model.enet_path(X, y[, l1_ratio, …]):用坐标下降计算弹性网路径
linear_model.lars_path(X, y[, Xy, Gram, …]):使用LARS算法计算最小角度回归或套索路径[1]
linear_model.lasso_path(X, y[, eps, …]):用坐标下降计算Lasso路径
linear_model.logistic_regression_path(X, y):计算Logistic回归模型以获得正则化参数列表。
linear_model.orthogonal_mp(X, y[, …]):正交匹配追踪(OMP)
linear_model.orthogonal_mp_gram(Gram, Xy[, …]):革命正交匹配追踪(OMP)
sklearn.manifold
: 流形学习
该sklearn.manifold
模块实现了数据嵌入技术。
用户指南:有关详细信息,请参阅“ 流形式学习”部分。
manifold.LocallyLinearEmbedding([…]):局部线性嵌入manifold.Isomap([n_neighbors, n_components, …]):Isomap嵌入
manifold.MDS([n_components, metric, n_init, …]):多维缩放
manifold.SpectralEmbedding([n_components, …]):用于非线性降维的光谱嵌入。
manifold.TSNE([n_components, perplexity, …]):t分布式随机邻域嵌入。
manifold.locally_linear_embedding(X, …[, …]):对数据执行局部线性嵌入分析。
manifold.smacof(dissimilarities[, metric, …]):使用SMACOF算法计算多维缩放。
manifold.spectral_embedding(adjacency[, …]):将样本投影到图拉普拉斯算子的第一个特征向量上。
sklearn.metrics
: 指标
有关更多详细信息,请参阅模型评估:量化预测质量部分和用户指南的成对度量,关联和内核部分。
该sklearn.metrics
模块包括评分函数,性能指标和成对指标以及距离计算。
型号选择界面
有关更多详细信息,请参阅用户指南的评分参数:定义模型评估规则部分。
metrics.get_scorer(scoring):从字符串中获得一名得分手
metrics.make_scorer(score_func[, …]):从性能指标或损失函数中创建一个得分手。
分类指标
有关详细信息,请参阅用户指南的“ 分类指标”部分。
metrics.accuracy_score(y_true, y_pred[, …]):准确度分类得分。
metrics.auc(x, y[, reorder]):使用梯形法则计算曲线下面积(AUC)
metrics.average_precision_score(y_true, y_score):根据预测分数计算平均精度(AP)
metrics.brier_score_loss(y_true, y_prob[, …]):计算Brier分数。
metrics.classification_report(y_true, y_pred):构建显示主要分类指标的文本报告
metrics.cohen_kappa_score(y1, y2[, labels, …]):Cohen的kappa:衡量注释器间协议的统计数据。
metrics.confusion_matrix(y_true, y_pred[, …]):计算混淆矩阵以评估分类的准确性
metrics.f1_score(y_true, y_pred[, labels, …]):计算F1分数,也称为平衡F分数或F分数
metrics.fbeta_score(y_true, y_pred, beta[, …]):计算F-beta分数
metrics.hamming_loss(y_true, y_pred[, …]):计算平均汉明损失。
metrics.hinge_loss(y_true, pred_decision[, …]):平均铰链损耗(非正则化)
metrics.jaccard_similarity_score(y_true, y_pred):Jaccard相似系数得分
metrics.log_loss(y_true, y_pred[, eps, …]):对数损失,又称逻辑损失或交叉熵损失。
metrics.matthews_corrcoef(y_true, y_pred[, …]):计算马修斯相关系数(MCC)
metrics.precision_recall_curve(y_true, …):计算不同概率阈值的精确调用对
metrics.precision_recall_fscore_support(…):计算每个班级的精确度,召回率,F测量和支持
metrics.precision_score(y_true, y_pred[, …]):计算精度
metrics.recall_score(y_true, y_pred[, …]):计算召回
metrics.roc_auc_score(y_true, y_score[, …]):根据预测分数在接收器工作特性曲线(ROC AUC)下的计算区域。
metrics.roc_curve(y_true, y_score[, …]):计算接收器工作特性(ROC)
metrics.zero_one_loss(y_true, y_pred[, …]):零一分类损失。
回归指标
有关详细信息,请参阅用户指南的“ 回归指标”部分。
metrics.explained_variance_score(y_true, y_pred):解释方差回归分数函数
metrics.mean_absolute_error(y_true, y_pred):平均绝对误差回归损失
metrics.mean_squared_error(y_true, y_pred[, …]):均方误差回归损失
metrics.mean_squared_log_error(y_true, y_pred):均方对数误差回归损失
metrics.median_absolute_error(y_true, y_pred):中位数绝对误差回归损失
metrics.r2_score(y_true, y_pred[, …]):R ^ 2(确定系数)回归分数函数。
多标签排名指标
有关更多详细信息,请参阅用户指南的Multilabel排名指标部分。
metrics.coverage_error(y_true, y_score[, …]):覆盖误差测量
metrics.label_ranking_average_precision_score(…):计算基于排名的平均精度
metrics.label_ranking_loss(y_true, y_score):计算排名损失度量
聚类指标
有关更多详细信息,请参阅用户指南的“ 群集性能评估”部分。
该sklearn.metrics.cluster
子模块包含了聚类分析的结果评价指标。评估有两种形式:
- 监督,使用每个样本的基础真值类值。
- 无监督,没有和测量模型本身的“质量”。
metrics.adjusted_mutual_info_score(…):调整两个聚类之间的相互信息。
metrics.adjusted_rand_score(labels_true, …):兰德指数调整为偶然。
metrics.calinski_harabaz_score(X, labels):计算Calinski和Harabaz得分。
metrics.completeness_score(labels_true, …):给出基本事实的集群标签的完整性度量。
metrics.fowlkes_mallows_score(labels_true, …):测量一组点的两个聚类的相似性。
metrics.homogeneity_completeness_v_measure(…):立即计算同质性和完整性以及V-Measure分数。
metrics.homogeneity_score(labels_true, …):给出基础事实的群集标记的同质性度量。
metrics.mutual_info_score(labels_true, …):两个聚类之间的相互信息。
metrics.normalized_mutual_info_score(…):两个聚类之间的归一化互信息。
metrics.silhouette_score(X, labels[, …]):计算所有样本的平均轮廓系数。
metrics.silhouette_samples(X, labels[, metric]):计算每个样本的Silhouette系数。
metrics.v_measure_score(labels_true, labels_pred):V-measure集群标签给出了一个基本事实。
成对指标
有关更多详细信息,请参阅用户指南的“ 成对度量标准,关联性和内核”部分。
metrics.pairwise.additive_chi2_kernel(X[, Y]):计算X和Y中观察值之间的加性卡方内核
metrics.pairwise.chi2_kernel(X[, Y, gamma]):计算指数卡方内核X和Y.
metrics.pairwise.cosine_similarity(X[, Y, …]):计算X和Y中样本之间的余弦相似度。
metrics.pairwise.cosine_distances(X[, Y]):计算X和Y中样本之间的余弦距离。
metrics.pairwise.distance_metrics():pairwise_distances的有效指标。
metrics.pairwise.euclidean_distances(X[, Y, …]):考虑X(和Y = X)的行作为矢量,计算每对矢量之间的距离矩阵。
metrics.pairwise.kernel_metrics():pairwise_kernels的有效指标
metrics.pairwise.laplacian_kernel(X[, Y, gamma]):计算X和Y之间的拉普拉斯内核。
metrics.pairwise.linear_kernel(X[, Y]):计算X和Y之间的线性内核。
metrics.pairwise.manhattan_distances(X[, Y, …]):计算X和Y中矢量之间的L1距离。
metrics.pairwise.pairwise_distances(X[, Y, …]):从矢量数组X和可选的Y计算距离矩阵。
metrics.pairwise.pairwise_kernels(X[, Y, …]):计算数组X和可选数组Y之间的内核。
metrics.pairwise.polynomial_kernel(X[, Y, …]):计算X和Y之间的多项式内核:
metrics.pairwise.rbf_kernel(X[, Y, gamma]):计算X和Y之间的rbf(高斯)内核:
metrics.pairwise.sigmoid_kernel(X[, Y, …]):计算X和Y之间的sigmoid内核:
metrics.pairwise.paired_euclidean_distances(X, Y):计算X和Y之间的成对欧氏距离
metrics.pairwise.paired_manhattan_distances(X, Y):计算X和Y中矢量之间的L1距离。
metrics.pairwise.paired_cosine_distances(X, Y):计算X和Y之间的成对余弦距离
metrics.pairwise.paired_distances(X, Y[, metric]):计算X和Y之间的成对距离。
metrics.pairwise_distances(X[, Y, metric, …]):从矢量数组X和可选的Y计算距离矩阵。
metrics.pairwise_distances_argmin(X, Y[, …]):计算一个点和一组点之间的最小距离。
metrics.pairwise_distances_argmin_min(X, Y):计算一个点和一组点之间的最小距离。
sklearn.mixture
: 高斯混合模型
该sklearn.mixture
模块实现了混合建模算法。
用户指南:有关详细信息,请参阅高斯混合模型部分。
mixture.BayesianGaussianMixture([…]):高斯混合的变分贝叶斯估计。
mixture.GaussianMixture([n_components, …]):高斯混合。
sklearn.model_selection
: 型号选择
用户指南:有关详细信息,请参阅交叉验证:评估估算器性能,调整估算器的超参数和 学习曲线部分。
拆分器类
model_selection.GroupKFold([n_splits]):具有非重叠组的K折叠迭代器变体。
model_selection.GroupShuffleSplit([…]):Shuffle-Group(s)-Out交叉验证迭代器
model_selection.KFold([n_splits, shuffle, …]):K-Folds交叉验证器
model_selection.LeaveOneGroupOut():保留One Group Out交叉验证器
model_selection.LeavePGroupsOut(n_groups):让P组退出交叉验证员
model_selection.LeaveOneOut():Leave-One-Out交叉验证器
model_selection.LeavePOut(p):Leave-P-Out交叉验证器
model_selection.PredefinedSplit(test_fold):预定义的拆分交叉验证器
model_selection.RepeatedKFold([n_splits, …]):重复K-Fold交叉验证器。
model_selection.RepeatedStratifiedKFold([…]):重复分层K-fold交叉验证器。
model_selection.ShuffleSplit([n_splits, …]):随机置换交叉验证器
model_selection.StratifiedKFold([n_splits, …]):分层K-Folds交叉验证器
model_selection.StratifiedShuffleSplit([…]):分层ShuffleSplit交叉验证器
model_selection.TimeSeriesSplit([n_splits, …]):时间序列交叉验证器
拆分器功能
model_selection.check_cv([cv, y, classifier]):用于构建交叉验证器的输入检查器实用程序
model_selection.train_test_split(*arrays, …):将数组或矩阵拆分为随机序列和测试子集
超参数优化器
model_selection.GridSearchCV(estimator, …):彻底搜索估计器的指定参数值。
model_selection.ParameterGrid(param_grid):参数网格,每个参数网格具有离散数量的值。
model_selection.ParameterSampler(…[, …]):从给定分布采样的参数生成器。
model_selection.RandomizedSearchCV(…[, …]):超参数的随机搜索。
model_selection.fit_grid_point(X, y, …[, …]):运行适合一组参数。
模型验证
model_selection.cross_validate(estimator, X):通过交叉验证评估指标,并记录适合度/得分时间。
model_selection.cross_val_predict(estimator, X):为每个输入数据点生成交叉验证的估计值
model_selection.cross_val_score(estimator, X):通过交叉验证评估分数
model_selection.learning_curve(estimator, X, y):学习曲线。
model_selection.permutation_test_score(…):使用排列评估交叉验证得分的显着性
model_selection.validation_curve(estimator, …):验证曲线。
sklearn.multiclass
: 多类和多标签分类
多类和多标签分类策略
-
该模块实现了多类学习算法:
-
- one-vs-the-rest / one-vs-all
- 一VS一
- 错误纠正输出代码
此模块中提供的估算器是元估计器:它们需要在其构造函数中提供基本估计器。例如,可以使用这些估计器将二元分类器或回归器转换为多类分类器。也可以将这些估计器与多类估计器一起使用,以期提高其准确性或运行时性能。
scikit-learn中的所有分类器都实现了多类分类; 如果您想尝试自定义多类策略,则只需使用此模块。
one-vs-the-rest元分类器还实现了predict_proba方法,只要这种方法由基类分类器实现即可。此方法返回单标签和多标签情况下的类成员资格的概率。请注意,在多标签情况下,概率是给定样本在给定类中下降的边际概率。因此,在多标签情况下,给定样本的所有可能标签上的这些概率的总和将不会总和为单位,如在单标签情况中那样。
用户指南:有关详细信息,请参阅多类和多标记算法部分。
multiclass.OneVsRestClassifier(estimator[, …]):One-vs-the-rest(OvR)多类/多标签策略
multiclass.OneVsOneClassifier(estimator[, …]):一对一多类策略
multiclass.OutputCodeClassifier(estimator[, …]):(纠错)输出代码多类策略
sklearn.multioutput
: 多输出回归和分类
该模块实现了多输出回归和分类。
此模块中提供的估算器是元估计器:它们需要在其构造函数中提供基本估计器。元估计器将单输出估计器扩展到多输出估计器。
用户指南:有关详细信息,请参阅多类和多标记算法部分。
multioutput.ClassifierChain(base_estimator):一种多标签模型,可将二元分类器排列成链。
multioutput.MultiOutputRegressor(estimator):多目标回归
multioutput.MultiOutputClassifier(estimator):多目标分类
sklearn.naive_bayes
: 朴素贝叶斯
该sklearn.neighbors
模块实现了k近邻算法。
用户指南:有关详细信息,请参阅最近邻居部分。
naive_bayes.BernoulliNB([alpha, binarize, …]):用于多变量伯努利模型的朴素贝叶斯分类器。
naive_bayes.GaussianNB([priors]):高斯朴素贝叶斯(GaussianNB)
naive_bayes.MultinomialNB([alpha, …]):用于多项式模型的朴素贝叶斯分类器
sklearn.neighbors
: 近邻算法
该sklearn.neighbors
模块实现了k近邻算法。
用户指南:有关详细信息,请参阅最近邻居部分。
neighbors.BallTree:BallTree用于快速广义N点问题
neighbors.DistanceMetric:DistanceMetric类
neighbors.KDTree:KDTree用于快速广义N点问题
neighbors.KernelDensity([bandwidth, …]):核密度估计
neighbors.KNeighborsClassifier([…]):实现k近邻的分类器投票。
neighbors.KNeighborsRegressor([n_neighbors, …]):基于k-最近邻居的回归。
neighbors.LocalOutlierFactor([n_neighbors, …]):使用局部异常因子(LOF)的无监督异常值检测
neighbors.RadiusNeighborsClassifier([…]):在给定半径内的邻居之间实施投票的分类器
neighbors.RadiusNeighborsRegressor([radius, …]):基于固定半径内的邻居的回归。
neighbors.NearestCentroid([metric, …]):最近的质心分类器。
neighbors.NearestNeighbors([n_neighbors, …]):用于实现邻居搜索的无监督学习者。
neighbors.kneighbors_graph(X, n_neighbors[, …]):计算X中点的k-邻居的(加权)
neighbors.radius_neighbors_graph(X, radius):计算X中各点的邻居(加权)
sklearn.neural_network
: 神经网络模型
该sklearn.neural_network
模块包括基于神经网络的模型。
用户指南:有关详细信息,请参阅神经网络模型(监督)和神经网络模型(无监督)部分。
neural_network.BernoulliRBM([n_components, …]):伯努利限制玻尔兹曼机器(RBM)。
neural_network.MLPClassifier([…]):多层感知器分类器。
neural_network.MLPRegressor([…]):多层感知器回归器。
sklearn.pipeline
: 管道
该sklearn.pipeline
模块实现了用于构建复合估计器的实用程序,作为变换和估计器链。
pipeline.FeatureUnion(transformer_list[, …]):连接多个变换器对象的结果。
pipeline.Pipeline(steps[, memory]):使用最终估算器进行变换的流水线。
pipeline.make_pipeline(*steps, **kwargs):从给定的估算器构造管道。
pipeline.make_union(*transformers, **kwargs):从给定的变换器构造一个FeatureUnion。
sklearn.preprocessing
: 预处理和规范化
该sklearn.preprocessing
模块包括缩放,居中,标准化,二值化和插补方法。
用户指南:有关详细信息,请参阅预处理数据部分。
preprocessing.Binarizer([threshold, copy]):根据阈值将数据二值化(将特征值设置为0或1)
preprocessing.FunctionTransformer([func, …]):从任意可调用构造变换器。
preprocessing.Imputer([missing_values, …]):用于完成缺失值的插补变换器。
preprocessing.KernelCenterer:将核心矩阵居中
preprocessing.LabelBinarizer([neg_label, …]):以一对一的方式对标签进行二值化
preprocessing.LabelEncoder:编码值介于0和n_classes-1之间的标签。
preprocessing.MultiLabelBinarizer([classes, …]):在可迭代的迭代和多标签格式之间进行转换
preprocessing.MaxAbsScaler([copy]):按每个特征的最大绝对值缩放。
preprocessing.MinMaxScaler([feature_range, copy]):通过将每个要素缩放到给定范围来转换要素。
preprocessing.Normalizer([norm, copy]):将样本单独归一化为单位范数。
preprocessing.OneHotEncoder([n_values, …]):使用one-hot又称K-K方案对分类整数特征进行编码。
preprocessing.PolynomialFeatures([degree, …]):生成多项式和交互功能。
preprocessing.QuantileTransformer([…]):使用分位数信息转换要素。
preprocessing.RobustScaler([with_centering, …]):使用对异常值具有鲁棒性的统计信息来扩展要素。
preprocessing.StandardScaler([copy, …]):通过删除均值和缩放到单位方差来标准化特征
preprocessing.add_dummy_feature(X[, value]):增加具有附加虚拟特征的数据集。
preprocessing.binarize(X[, threshold, copy]):类数组或scipy.sparse矩阵的布尔阈值
preprocessing.label_binarize(y, classes[, …]):以一对一的方式对标签进行二值化
preprocessing.maxabs_scale(X[, axis, copy]):将每个要素缩放到[-1,1]范围,而不会破坏稀疏性。
preprocessing.minmax_scale(X[, …]):通过将每个要素缩放到给定范围来转换要素。
preprocessing.normalize(X[, norm, axis, …]):将输入向量单独缩放到单位范数(向量长度)。
preprocessing.quantile_transform(X[, axis, …]):使用分位数信息转换要素。
preprocessing.robust_scale(X[, axis, …]):沿任意轴标准化数据集
preprocessing.scale(X[, axis, with_mean, …]):沿任意轴标准化数据集
sklearn.random_projection
: 随机投影
随机投影变压器
随机投影是一种简单且计算有效的方法,通过交换受控制的精度(作为附加方差)来缩短数据的维数,从而缩短处理时间并缩小模型尺寸。
控制随机投影矩阵的尺寸和分布,以便保持数据集的任何两个样本之间的成对距离。
随机投影效率背后的主要理论结果是 Johnson-Lindenstrauss引理(引用维基百科):
在数学中,Johnson-Lindenstrauss引理是关于从高维到低维欧几里德空间的低失真嵌入点的结果。该引理指出,高维空间中的一小组点可以嵌入到更低维度的空间中,使得点之间的距离几乎保持不变。用于嵌入的地图至少是Lipschitz,甚至可以被视为正交投影。
用户指南:有关详细信息,请参阅随机投影部分。
random_projection.GaussianRandomProjection([…]):通过高斯随机投影降低维数
random_projection.SparseRandomProjection([…]):通过稀疏随机投影减少维数
random_projection.johnson_lindenstrauss_min_dim(…):找到随机投射到的“安全”数量的组件
sklearn.semi_supervised
半监督学习
该sklearn.semi_supervised
模块实现了半监督学习算法。这些算法利用少量标记数据和大量未标记数据进行分类任务。该模块包括Label Propagation。
用户指南:有关详细信息,请参阅半监督部分。
semi_supervised.LabelPropagation([kernel, …]):标签传播分类器
semi_supervised.LabelSpreading([kernel, …]):LabelSpreading模型用于半监督学习
sklearn.svm
: 支持向量机
该sklearn.svm
模块包括支持向量机算法。
用户指南:有关详细信息,请参阅“ 支持向量机”部分。
估算器
svm.LinearSVC([penalty, loss, dual, tol, C, …]):线性支持向量分类。
svm.LinearSVR([epsilon, tol, C, loss, …]):线性支持向量回归。
svm.NuSVC([nu, kernel, degree, gamma, …]):Nu支持向量分类。
svm.NuSVR([nu, C, kernel, degree, gamma, …]):Nu支持向量回归。
svm.OneClassSVM([kernel, degree, gamma, …]):无监督异常值检测。
svm.SVC([C, kernel, degree, gamma, coef0, …]):C-支持向量分类。
svm.SVR([kernel, degree, gamma, coef0, tol, …]):Epsilon支持向量回归。
svm.l1_min_c(X, y[, loss, fit_intercept, …]):返回C的最低边界,使得对于C in(l1_min_C,infinity),模型保证不为空。
低级方法
svm.libsvm.cross_validation:交叉验证程序的绑定(低级程序)
svm.libsvm.decision_function:预测保证金(libsvm名称为predict_values)
svm.libsvm.fit:使用libsvm训练模型(低级方法)
svm.libsvm.predict:给定模型预测X的目标值(低级方法)
sklearn.tree
: 决策树
该sklearn.tree
模块包括用于分类和回归的基于决策树的模型。
用户指南:有关详细信息,请参阅决策树部分。
tree.DecisionTreeClassifier([criterion, …]):决策树分类器。
tree.DecisionTreeRegressor([criterion, …]):决策树回归量。
tree.ExtraTreeClassifier([criterion, …]):一个极随机的树分类器。
tree.ExtraTreeRegressor([criterion, …]):一个非常随机的树回归器。
tree.export_graphviz(decision_tree[, …]):以DOT格式导出决策树。
sklearn.utils
: 实用程序
该sklearn.utils
模块包括各种实用程序。
开发人员指南:有关详细信息,请参阅“ 实用程序开发人员”页面。
utils.as_float_array(X[, copy, force_all_finite]):将类数组转换为浮点数组。
utils.assert_all_finite(X):如果X包含NaN或无穷大,则抛出ValueError。
utils.check_X_y(X, y[, accept_sparse, …]):标准估算器的输入验证。
utils.check_array(array[, accept_sparse, …]):对数组,列表,稀疏矩阵或类似的输入验证。
utils.check_consistent_length(*arrays):检查所有阵列是否具有一致的第一维。
utils.check_random_state(seed):将种子转换为np.random.RandomState实例
utils.class_weight.compute_class_weight(…):估算不平衡数据集的类权重。
utils.class_weight.compute_sample_weight(…):对于不平衡数据集,按类别估算样本权重。
utils.estimator_checks.check_estimator(Estimator):检查估算员是否遵守scikit-learn惯例。
utils.extmath.safe_sparse_dot(a, b[, …]):正确处理稀疏矩阵情况的点积
utils.indexable(*iterables):使数组可转换为交叉验证。
utils.resample(*arrays, **options):以一致的方式重新采样数组或稀疏矩阵
utils.safe_indexing(X, indices):使用索引从X返回项目或行。
utils.shuffle(*arrays, **options):以一致的方式随机播放阵列或稀疏矩阵
utils.sparsefuncs.incr_mean_variance_axis(X, …):在CSR或CSC矩阵上计算沿轴的增量均值和方差。
utils.sparsefuncs.inplace_column_scale(X, scale):CSC / CSR矩阵的原位列缩放。
utils.sparsefuncs.inplace_row_scale(X, scale):CSR或CSC矩阵的原位行缩放。
utils.sparsefuncs.inplace_swap_row(X, m, n):就地交换两行CSC / CSR矩阵。
utils.sparsefuncs.inplace_swap_column(X, m, n):就地交换两列CSC / CSR矩阵。
utils.sparsefuncs.mean_variance_axis(X, axis):沿CSR或CSC矩阵上的轴上计算均值和方差
utils.validation.check_is_fitted(estimator, …):对估算器执行is_fitted验证。
utils.validation.check_memory(memory):检查memory是否像joblib.Memory一样。
utils.validation.check_symmetric(array[, …]):确保数组是2D,方形和对称。
utils.validation.column_or_1d(y[, warn]):Ravel列或1d numpy数组,否则会引发错误
utils.validation.has_fit_parameter(…):检查估计器的拟合方法是否支持给定参数。
http://scikit-learn.org/stable/documentation.html