Scikit-Learn
peipei巴比
自省自勉自励
展开
-
【Scikit-Learn 中文文档】四十八:数据转换和预测变量的组合模型- 关于科学数据处理的统计学习教程 - scikit-learn 教程 | ApacheCN
我们已经知道一些模型可以做数据转换,一些模型可以用来预测变量。我们可以建立一个组合模型同时完成以上工作:转载 2017-12-07 18:09:55 · 363 阅读 · 0 评论 -
【Scikit-Learn 中文文档】三十九:预测目标 (y) 的转换 - 数据集转换 - 用户指南 | ApacheCN
预测目标 (y) 的转换标签二值化LabelBinarizer 是一个用来从多类别列表创建标签矩阵的工具类转载 2017-12-06 09:30:35 · 226 阅读 · 0 评论 -
【Scikit-Learn 中文文档】三十八:成对的矩阵, 类别和核函数 - 数据集转换 - 用户指南 | ApacheCN
The sklearn.metrics.pairwise 子模块实现了用于评估成对距离或样本集合之间的联系的实用程序。本模块同时包含距离度量和核函数,对于这两者这里提供一个简短的总结。距离度量是形如 d(a, b) 例如 d(a, b) < d(a, c) 如果对象 a 和 b 被认为 “更加相似” 相比于 a 和 c. 两个完全相同的目标的距离是零。最广泛使用的例子就是欧几里得距离。 为了保证是 ‘真实的’ 度量, 其必须满足以下条件:对于所有的 a 和 b,d(a, b) >= 0正定性:当且仅转载 2017-12-06 09:28:55 · 338 阅读 · 0 评论 -
【Scikit-Learn 中文文档】三十七:内核近似 - 数据集转换 - 用户指南 | ApacheCN
这个子模块包含与某些 kernel 对应的特征映射的函数,这个会用于例如支持向量机的算法当中(see 支持向量机)。 下面这些特征函数对输入执行非线性转换,可以用于线性分类或者其他算法。与 kernel trick 相比,近似的进行特征映射更适合在线学习,并能够有效 减少学习大量数据的开销。标准化使用内核的 svm 不能有效的适用到海量数据,但是使用近似内核映射的方法,对于线性 SVM 来说效果可能更好。 而且,使用 SGDClassifier 进行近似的内核映射,使得对海量数据进行非线性学习也成为了可能转载 2017-12-06 09:26:52 · 378 阅读 · 0 评论 -
【Scikit-Learn 中文文档】三十六:随机投影 - 数据集转换 - 用户指南 | ApacheCN
sklearn.random_projection 模块实现了一个简单且高效率的计算方式来减少数据维度,通过牺牲一定的精度(作为附加变量)来加速处理时间及更小的模型尺寸。 这个模型实现了两类无结构化的随机矩阵: Gaussian random matrix 和 sparse random matrix.随机投影矩阵的维度和分布是受控制的,所以可以保存任意两个数据集的距离。因此随机投影适用于基于距离的方法。支撑随机投影效率的主要理论成果是`Johnson-Lindenstrauss lemma (quot转载 2017-12-05 18:17:32 · 1658 阅读 · 0 评论 -
【Scikit-Learn 中文文档】三十五:无监督降维 - 数据集转换 - 用户指南 | ApacheCN
如果你的特征数量很多, 在监督步骤之前, 可以通过无监督的步骤来减少特征. 很多的 无监督学习 方法实现了一个名为 transform 的方法, 它可以用来降低维度. 下面我们将讨论大量使用这种模式的两个具体示例.转载 2017-12-04 15:36:21 · 276 阅读 · 0 评论 -
【Scikit-Learn 中文文档】三十四:预处理数据 - 数据集转换 - 用户指南 | ApacheCN
sklearn.preprocessing 包提供了几个常见的实用功能和变换器类型,用来将原始特征向量更改为更适合机器学习模型的形式。一般来说,机器学习算法受益于数据集的标准化。如果数据集中存在一些离群值,那么稳定的缩放或转换更合适。不同缩放、转换以及归一在一个包含边缘离群值的数据集中的表现在 Compare the effect of different scalers on data with outliers 中有着重说明。数据集的 标准化 对scikit-learn中实现的大多数机器学习算法来说转载 2017-12-04 15:33:56 · 297 阅读 · 0 评论 -
【Scikit-Learn 中文文档】三十三:特征提取 - 数据集转换 - 用户指南 | ApacheCN
模块 sklearn.feature_extraction 可用于提取符合机器学习算法支持的特征,比如文本和图片。类 DictVectorizer 可用于将标准的Python字典(dict)对象列表的要素数组转换为 scikit-learn 估计器使用的 NumPy/SciPy 表示形式。虽然 Python 的处理速度不是特别快,但 Python 的 dict 优点是使用方便,稀疏(不需要存储的特征),并且除了值之外还存储特征名称。类 DictVectorizer 实现了 “one-of-K” 或 “转载 2017-12-04 15:31:20 · 529 阅读 · 0 评论 -
【Scikit-Learn 中文文档】三十二:Pipeline(管道)和 FeatureUnion(特征联合): 合并的评估器 - 数据集转换 - 用户指南 | ApacheCN
Pipeline 可以把多个评估器链接成一个。这个是很有用的,因为处理数据的步骤一般都是固定的,例如特征选择、标准化和分类。Pipeline 主要有两个目的:便捷性和封装性你只要对数据调用 ``fit``和 ``predict``一次来适配所有的一系列评估器。联合的参数选择你可以一次 :ref:`grid search <grid_search>`管道中所有评估器的参数。安全性训练转换器和预测器使用的是相同样本,管道有助于防止来自测试数据的统计数据泄露到交叉验证的训练模型中。管道中的所有评估转载 2017-12-04 15:21:56 · 302 阅读 · 0 评论 -
【Scikit-Learn 中文文档】三十一:模型持久化 - 模型选择和评估 - 用户指南 | ApacheCN
在训练完 scikit-learn 模型之后, 最好有一种方法来将模型持久化以备将来使用,而无需重新训练. 以下部分为您提供了有关如何使用 pickle 来持久化模型的示例. 在使用 pickle 序列化时,我们还将回顾一些安全性和可维护性方面的问题.转载 2017-12-04 15:18:57 · 255 阅读 · 0 评论 -
【Scikit-Learn 中文文档】三十:模型评估: 量化预测的质量 - 模型选择和评估 - 用户指南 | ApacheCN
有 3 种不同的 API 用于评估模型预测的质量:Estimator score method(估计器得分的方法): Estimators(估计器)有一个 score(得分) 方法,为其解决的问题提供了默认的 evaluation criterion (评估标准)。 在这个页面上没有相关讨论,但是在每个 estimator (估计器)的文档中会有相关的讨论。Scoring parameter(评分参数): Model-evaluation tools (模型评估工具)使用 cross-validatio转载 2017-12-04 10:01:33 · 1369 阅读 · 0 评论 -
【Scikit-Learn 中文文档】四十:数据集加载工具 - 用户指南 | ApacheCN
sklearn.datasets 包装在 Getting Started 部分中嵌入了介绍一些小型玩具的数据集。为了在控制数据的统计特性(通常是特征的 correlation (相关性)和 informativeness (信息性))的同时评估数据集 (n_samples 和 n_features) 的规模的影响,也可以生成综合数据。这个软件包还具有帮助用户获取更大的数据集的功能,这些数据集通常由机器学习社区使用,用于对来自 ‘real world’ 的数据进行检测算法。转载 2017-12-06 09:32:32 · 577 阅读 · 0 评论 -
【Scikit-Learn 中文文档】十六:半监督学习 - 监督学习 - 用户指南 | ApacheCN
半监督学习 适用于在训练数据上的一些样本数据没有贴上标签的情况。 sklearn.semi_supervised 中的半监督估计, 能够利用这些附加的未标记数据来更好地捕获底层数据分布的形状,并将其更好地类推到新的样本。 当我们有非常少量的已标签化的点和大量的未标签化的点时,这些算法表现均良好。转载 2017-11-27 14:59:16 · 2535 阅读 · 0 评论 -
【Scikit-Learn 中文文档】十七:概率校准 - 监督学习 - 用户指南 | ApacheCN
执行分类时, 您经常希望不仅可以预测类标签, 还要获得相应标签的概率. 这个概率给你一些预测的信心. 一些模型可以给你贫乏的概率估计, 有些甚至不支持概率预测. 校准模块可以让您更好地校准给定模型的概率, 或添加对概率预测的支持.转载 2017-11-27 15:00:56 · 965 阅读 · 0 评论 -
【Scikit-Learn 中文文档】四十五:监督学习:从高维观察预测输出变量 - 关于科学数据处理的统计学习教程 - scikit-learn 教程 | ApacheCN
监督学习解决的问题监督学习 在于学习两个数据集的联系:观察数据 X 和我们正在尝试预测的额外变量 y (通常称“目标”或“标签”), 而且通常是长度为 n_samples 的一维数组。scikit-learn 中所有监督的 估计量 <https://en.wikipedia.org/wiki/Estimator> 都有一个用来拟合模型的 fit(X, y) 方法,和根据给定的没有标签观察值 X 返回预测的带标签的 y 的 predict(X) 方法。词汇:分类和回归如果预测任务是为了将观察值分类到有转载 2017-12-07 09:53:09 · 312 阅读 · 0 评论 -
【Scikit-Learn 中文文档】四十七:无监督学习: 寻求数据表示 - 关于科学数据处理的统计学习教程 - scikit-learn 教程 | ApacheCN
聚类: 对样本数据进行分组可以利用聚类解决的问题对于 iris 数据集来说,我们知道所有样本有 3 种不同的类型,但是并不知道每一个样本是那种类型:此时我们可以尝试一个 clustering task(聚类任务) 聚类算法: 将样本进行分组,相似的样本被聚在一起,而不同组别之间的样本是有明显区别的,这样的分组方式就是 clusters(聚类)转载 2017-12-07 17:58:54 · 346 阅读 · 0 评论 -
【Scikit-Learn 中文文档】四十六:模型选择:选择估计量及其参数 - 关于科学数据处理的统计学习教程 - scikit-learn 教程 | ApacheCN
中文文档: http://sklearn.apachecn.org/cn/stable/tutorial/statistical_inference/model_selection.html英文文档: http://sklearn.apachecn.org/en/stable/tutorial/statistical_inference/model_selection.html转载 2017-12-07 17:57:19 · 343 阅读 · 0 评论 -
【Scikit-Learn 中文文档】四十四:机器学习: scikit-learn 中的设置以及预估对象 - 关于科学数据处理的统计学习教程 - scikit-learn 教程 | ApacheCN
Scikit-learn可以从一个或者多个数据集中学习信息,这些数据集合可表示为2维阵列,也可认为是一个列表。列表的第一个维度代表 样本 ,第二个维度代表 特征 (每一行代表一个样本,每一列代表一种特征)。转载 2017-12-07 09:50:47 · 311 阅读 · 0 评论 -
【Scikit-Learn 中文文档】四十三:使用 scikit-learn 介绍机器学习 - scikit-learn 教程 | ApacheCN
一般来说,一个学习问题通常会考虑一系列 n 个 样本 数据,然后尝试预测未知数据的属性。 如果每个样本是 多个属性的数据 (比如说是一个多维记录),就说它有许多“属性”,或称 features(特征) 。我们可以将学习问题分为几大类:监督学习 , 其中数据带有一个附加属性,即我们想要预测的结果值( 点击此处 转到 scikit-learn 监督学习页面)。这个问题可以是:分类 : 样本属于两个或更多个类,我们想从已经标记的数据中学习如何预测未标记数据的类别。 分类问题的一个例子是手写数字识别,其目的是转载 2017-12-07 09:48:34 · 314 阅读 · 0 评论 -
【Scikit-Learn 中文文档】四十二:预测延迟 / 预测吞吐量 / 技巧和窍门 - 计算性能 - 用户指南 | ApacheCN
对于某些 applications (应用),estimators(估计器)的性能(主要是 prediction time (预测时间)的 latency (延迟)和 throughput (吞吐量))至关重要。考虑 training throughput (训练吞吐量)也可能是有意义的,但是在 production setup (生产设置)(通常在脱机中运行)通常是不太重要的。我们将在这里审查您可以从不同上下文中的一些 scikit-learn estimators(估计器)预期的数量级,并提供一些 o转载 2017-12-07 09:41:44 · 616 阅读 · 0 评论 -
【Scikit-Learn 中文文档】四十一:大规模计算的策略: 更大量的数据 - 用户指南 | ApacheCN
对于一些应用程序,需要被处理的样本数量,特征数量(或两者)和/或速度这些对传统的方法而言非常具有挑战性。在这些情况下,scikit-learn 有许多你值得考虑的选项可以使你的系统规模化。外核(或者称作 “外部存储器”)学习是一种用于学习那些无法装进计算机主存储(RAM)的数据的技术。这里描述了一种为了实现这一目的而设计的系统:一种用流来传输实例的方式一种从实例中提取特征的方法增量式算法转载 2017-12-07 09:39:33 · 375 阅读 · 0 评论 -
Scikit-Learn 0.19 中文文档 的来由
Scikit-Learn 0.19 中文文档 翻译原创 2017-11-27 15:15:33 · 349 阅读 · 0 评论 -
【Scikit-Learn 中文文档】十九:高斯混合模型 - 无监督学习 - 用户指南 | ApacheCN
sklearn.mixture 是一个应用高斯混合模型进行非监督学习的包,支持 diagonal,spherical,tied,full四种协方差矩阵 (注:diagonal指每个分量分布有各自不同对角协方差矩阵,spherical指每个分量分布有各自不同的简单协方差矩阵, tied指所有分量分布有相同的标准协方差矩阵,full指每个分量分布有各自不同的标准协方差矩阵) ,它对数据进行抽样,并且根据数据估计模型。同时包也提供了相关支持,来帮助用户决定合适的分量分布个数。转载 2017-11-27 15:07:24 · 565 阅读 · 0 评论 -
【Scikit-Learn 中文文档】十八:神经网络模块(有监督)- 监督学习 - 用户指南 | ApacheCN
此实现不适用于大规模应用程序。 特别是 scikit-learn 不支持 GPU。如果想要提高运行速度并使用基于 GPU 的实现以及为构建深度学习架构提供更多灵活性的框架,请参阅 Related Projects。多层感知器(MLP)**是一种监督学习算法转载 2017-11-27 15:05:34 · 516 阅读 · 0 评论 -
【Scikit-Learn 中文文档】二十九:优化估计器的超参数 - 模型选择和评估 - 用户指南 | ApacheCN
超参数,即不直接在估计器内学习的参数。在 scikit-learn 包中,它们作为估计器类中构造函数的参数进行传递。典型的例子有:用于支持向量分类器的 C 、kernel 和 gamma ,用于Lasso的 alpha 等。搜索超参数空间以便获得最好 交叉验证 分数的方法是可能的而且是值得提倡的。通过这种方式,构造估计器时被提供的任何参数或许都能被优化。转载 2017-12-04 09:59:52 · 412 阅读 · 0 评论 -
[翻译中]【Scikit-Learn 中文文档】二十:流形学习 - 监督学习 - 用户指南 | ApacheCN
高维数据集可能非常难以可视化。 虽然可以绘制两维或三维数据来显示数据的固有结构,但等效的高维图不太直观。 为了帮助可视化数据集的结构,必须以某种方式减小维度。通过对数据的随机投影来实现降维的最简单方法。 虽然这允许数据结构的一定程度的可视化,但是选择的随机性远远不够。 在随机投影中,数据中更有趣的结构很可能会丢失转载 2017-11-29 15:13:48 · 446 阅读 · 0 评论 -
【Scikit-Learn 中文文档】五:内核岭回归 - 监督学习 - 用户指南 | ApacheCN
中文文档: http://sklearn.apachecn.org/cn/0.19.0/tutorial/basic/tutorial.html英文文档: http://sklearn.apachecn.org/en/0.19.0/tutorial/basic/tutorial.html官方文档: http://scikit-learn.org/0.19/GitHub:转载 2017-11-21 13:45:37 · 303 阅读 · 0 评论 -
【Scikit-Learn 中文文档】四:线性和二次判别分析 - 监督学习 - 用户指南 | ApacheCN
中文文档: http://sklearn.apachecn.org/cn/0.19.0/tutorial/basic/tutorial.html英文文档: http://sklearn.apachecn.org/en/0.19.0/tutorial/basic/tutorial.html官方文档: http://scikit-learn.org/0.19/GitHub: h转载 2017-11-21 13:44:40 · 325 阅读 · 0 评论 -
【Scikit-Learn 中文文档】三:广义线性模型 - 监督学习 - 用户指南| ApacheCN
中文文档: http://sklearn.apachecn.org/cn/0.19.0/tutorial/basic/tutorial.html英文文档: http://sklearn.apachecn.org/en/0.19.0/tutorial/basic/tutorial.htmlGitHub: https://github.com/apachecn/scikit-learn转载 2017-11-21 13:43:04 · 560 阅读 · 0 评论 -
【Scikit-Learn 中文文档】二:使用 scikit-learn 介绍机器学习| ApacheCN
中文文档: http://sklearn.apachecn.org/cn/0.19.0/tutorial/basic/tutorial.html英文文档: http://sklearn.apachecn.org/en/0.19.0/tutorial/basic/tutorial.htmlGitHub: https://github.com/apachecn/scikit-learn转载 2017-11-21 13:40:49 · 307 阅读 · 0 评论 -
【Scikit-Learn 中文文档】一:安装 sciki-learn| ApacheCN
中文文档: http://sklearn.apachecn.org/cn/0.19.0/tutorial/basic/tutorial.html英文文档: http://sklearn.apachecn.org/en/0.19.0/tutorial/basic/tutorial.htmlGitHub: https://github.com/apachecn/scikit-learn转载 2017-11-21 13:38:05 · 1120 阅读 · 0 评论 -
【Scikit-Learn 中文文档】五十:处理文本数据 - scikit-learn 教程 | ApacheCN
本指南旨在一个单独实际任务中探索一些主要的 scikit-learn 工具: 分析关于20 个不同主题的一个文件汇编(新闻组帖子).在本节中,我们将会学习如何:读取文件内容以及所属的类别提取合适于机器学习的特征向量训练一个线性模型来进行分类使用网格搜索策略来找到特征提取组件以及分类器的最佳配置转载 2017-12-08 16:24:18 · 661 阅读 · 0 评论 -
【Scikit-Learn 中文文档】二十五:新异类和异常值检测 - 无监督学习 - 用户指南 | ApacheCN
许多应用需要能够判断新观测是否属于与现有观测相同的分布(它是一个非线性的),或者应该被认为是不同的(这是一个异常值)。 通常,这种能力用于清理实际的数据集。 必须做出两个重要的区别:新奇检测: 训练数据不被异常值污染,我们有兴趣检测新观察中的异常情况。离群点检测: 训练数据包含异常值,我们需要适应训练数据的中心模式,忽略偏差观测值。转载 2017-11-29 15:45:35 · 621 阅读 · 0 评论 -
【Scikit-Learn 中文文档】二十四:协方差估计 / 经验协方差 / 收敛协方差 / 稀疏逆协方差 / Robust 协方差估计 - 无监督学习 - 用户指南 | ApacheCN
许多统计问题在某一时刻需要估计一个总体的协方差矩阵,这可以看作是对数据集散点图形状的估计。 大多数情况下,基于样本的估计(基于其属性,如尺寸,结构,均匀性), 对估计质量有很大影响。 sklearn.covariance 方法的目的是 提供一个能在各种设置下准确估计总体协方差矩阵的工具。转载 2017-11-29 15:43:24 · 3515 阅读 · 0 评论 -
【Scikit-Learn 中文文档】二十三:分解成分中的信号(矩阵分解问题) - 无监督学习 - 用户指南 | ApacheCN
PCA 用于对一组连续正交分量中的多变量数据集进行方差最大方向的分解。 在 scikit-learn 中, PCA 被实现为一个变换对象, 通过 fit 方法可以降维成 n 个成分, 并且可以将新的数据投影(project, 亦可理解为分解)到这些成分中。可选参数 whiten=True 使得可以将数据投影到奇异(singular)空间上,同时将每个成分缩放到单位方差。 如果下游模型对信号的各向同性作出强烈的假设,这通常是有用的,例如,使用RBF内核的 SVM 算法和 K-Means 聚类算法。转载 2017-11-29 15:21:52 · 1284 阅读 · 2 评论 -
【Scikit-Learn 中文文档】二十二:双聚类 - 无监督学习 - 用户指南 | ApacheCN
Biclustering 可以使用 sklearn.cluster.bicluster 模块。 Biclustering 算法对数据矩阵的行列同时进行聚类。 同时对行列进行聚类称之为 biclusters。 每一次聚类都会通过原始数据矩阵的一些属性确定一个子矩阵。为了可视化, 给定一个 bicluster 聚类,数据矩阵的行列可以重新分配,使得 bi-cluster 是连续的。算法在如何定义 bicluster 方面有一些不同,常见类型包括:不变的 values , 不变的 rows, 或者不变的 c转载 2017-11-29 15:19:54 · 783 阅读 · 0 评论 -
【Scikit-Learn 中文文档】六: 支持向量机 - 监督学习 - 用户指南 | ApacheCN
中文文档: http://sklearn.apachecn.org/cn/0.19.0/modules/svm.html英文文档: http://sklearn.apachecn.org/en/0.19.0/modules/svm.html官方文档: http://scikit-learn.org/0.19/GitHub: https://github.com/apac转载 2017-11-22 16:36:09 · 397 阅读 · 0 评论 -
【Scikit-Learn 中文文档】七:随机梯度下降 - 监督学习 - 用户指南 | ApacheCN
中文文档: http://sklearn.apachecn.org/cn/0.19.0/modules/sgd.html英文文档: http://sklearn.apachecn.org/en/0.19.0/modules/sgd.html官方文档: http://scikit-learn.org/0.19/GitHub: https://github.com/apac转载 2017-11-22 16:38:04 · 496 阅读 · 0 评论 -
【Scikit-Learn 中文文档】八:最近邻 - 监督学习 - 用户指南 | ApacheCN
中文文档: http://sklearn.apachecn.org/cn/stable/modules/neighbors.html英文文档: http://sklearn.apachecn.org/en/stable/modules/neighbors.html官方文档: http://scikit-learn.org/stable/GitHub: https://g转载 2017-11-22 16:40:14 · 352 阅读 · 0 评论 -
[翻译中]【Scikit-Learn 中文文档】二十八:交叉验证 - 模型选择和评估 - 用户指南 | ApacheCN
学习一个预测函数的参数,并在相同数据集上进行测试是一种错误的做法: 一个仅给出测试用例标签的模型将会获得极高的分数,但对于尚未出现过的数据 它则无法预测出任何有用的信息。 这种情况称为“过拟合”(overfitting). 为了避免这种情况,在进行(监督)机器学习实验时,通常取出部分可利用数据作为实验测试集(test set)转载 2017-12-04 09:56:28 · 478 阅读 · 0 评论