2017年12月_peipei巴比

12月 11月 01月

转载【Scikit-Learn 中文文档】五十：处理文本数据 - scikit-learn 教程 | ApacheCN

本指南旨在一个单独实际任务中探索一些主要的 scikit-learn 工具: 分析关于20 个不同主题的一个文件汇编（新闻组帖子）.在本节中，我们将会学习如何:读取文件内容以及所属的类别提取合适于机器学习的特征向量训练一个线性模型来进行分类使用网格搜索策略来找到特征提取组件以及分类器的最佳配置

2017-12-08 16:24:18 661

原创 RocketMQ4.1.0源码解析--Consumer的启动过程

看过3.5.8的一些文章之后，发现和4.1.0的功能还是有差别的，因此有了此文本文只简单描述了Consumer的启动过程，不妥之处请指正，免费提供给大家使用，也期待大家能写出更好的东西。ps：写好了记得私信我哦！附启动过程及启动中涉及的主要类和功能点。

2017-12-08 14:33:17 340

转载【Scikit-Learn 中文文档】四十九：寻求帮助 - 关于科学数据处理的统计学习教程 - scikit-learn 教程 | ApacheCN

如果您在使用 scikit 的过程中发现错误或者需要在说明文档中澄清的内容，可以随时通过 Mailing List 进行咨询。

2017-12-07 18:11:53 364

转载【Scikit-Learn 中文文档】四十八：数据转换和预测变量的组合模型- 关于科学数据处理的统计学习教程 - scikit-learn 教程 | ApacheCN

我们已经知道一些模型可以做数据转换，一些模型可以用来预测变量。我们可以建立一个组合模型同时完成以上工作:

2017-12-07 18:09:55 363

转载【Scikit-Learn 中文文档】四十七：无监督学习: 寻求数据表示 - 关于科学数据处理的统计学习教程 - scikit-learn 教程 | ApacheCN

聚类: 对样本数据进行分组可以利用聚类解决的问题对于 iris 数据集来说，我们知道所有样本有 3 种不同的类型，但是并不知道每一个样本是那种类型：此时我们可以尝试一个 clustering task（聚类任务）聚类算法: 将样本进行分组，相似的样本被聚在一起，而不同组别之间的样本是有明显区别的，这样的分组方式就是 clusters（聚类）

2017-12-07 17:58:54 346

转载【Scikit-Learn 中文文档】四十六：模型选择：选择估计量及其参数 - 关于科学数据处理的统计学习教程 - scikit-learn 教程 | ApacheCN

中文文档: http://sklearn.apachecn.org/cn/stable/tutorial/statistical_inference/model_selection.html英文文档: http://sklearn.apachecn.org/en/stable/tutorial/statistical_inference/model_selection.html

2017-12-07 17:57:19 343

转载【Scikit-Learn 中文文档】四十五：监督学习：从高维观察预测输出变量 - 关于科学数据处理的统计学习教程 - scikit-learn 教程 | ApacheCN

监督学习解决的问题监督学习在于学习两个数据集的联系：观察数据 X 和我们正在尝试预测的额外变量 y (通常称“目标”或“标签”)，而且通常是长度为 n_samples 的一维数组。scikit-learn 中所有监督的估计量 <https://en.wikipedia.org/wiki/Estimator> 都有一个用来拟合模型的 fit(X, y) 方法，和根据给定的没有标签观察值 X 返回预测的带标签的 y 的 predict(X) 方法。词汇：分类和回归如果预测任务是为了将观察值分类到有

2017-12-07 09:53:09 312

转载【Scikit-Learn 中文文档】四十四：机器学习: scikit-learn 中的设置以及预估对象 - 关于科学数据处理的统计学习教程 - scikit-learn 教程 | ApacheCN

Scikit-learn可以从一个或者多个数据集中学习信息，这些数据集合可表示为2维阵列，也可认为是一个列表。列表的第一个维度代表样本，第二个维度代表特征（每一行代表一个样本，每一列代表一种特征）。

2017-12-07 09:50:47 311

转载【Scikit-Learn 中文文档】四十三：使用 scikit-learn 介绍机器学习 - scikit-learn 教程 | ApacheCN

一般来说，一个学习问题通常会考虑一系列 n 个样本数据，然后尝试预测未知数据的属性。如果每个样本是多个属性的数据（比如说是一个多维记录），就说它有许多“属性”，或称 features(特征) 。我们可以将学习问题分为几大类:监督学习 , 其中数据带有一个附加属性，即我们想要预测的结果值（点击此处转到 scikit-learn 监督学习页面）。这个问题可以是:分类 : 样本属于两个或更多个类，我们想从已经标记的数据中学习如何预测未标记数据的类别。分类问题的一个例子是手写数字识别，其目的是

2017-12-07 09:48:34 314

转载【Scikit-Learn 中文文档】四十二：预测延迟 / 预测吞吐量 / 技巧和窍门 - 计算性能 - 用户指南 | ApacheCN

对于某些 applications （应用），estimators（估计器）的性能（主要是 prediction time （预测时间）的 latency （延迟）和 throughput （吞吐量））至关重要。考虑 training throughput （训练吞吐量）也可能是有意义的，但是在 production setup （生产设置）（通常在脱机中运行）通常是不太重要的。我们将在这里审查您可以从不同上下文中的一些 scikit-learn estimators（估计器）预期的数量级，并提供一些 o

2017-12-07 09:41:44 616

转载【Scikit-Learn 中文文档】四十一：大规模计算的策略: 更大量的数据 - 用户指南 | ApacheCN

对于一些应用程序，需要被处理的样本数量,特征数量（或两者）和/或速度这些对传统的方法而言非常具有挑战性。在这些情况下，scikit-learn 有许多你值得考虑的选项可以使你的系统规模化。外核（或者称作 “外部存储器”）学习是一种用于学习那些无法装进计算机主存储（RAM）的数据的技术。这里描述了一种为了实现这一目的而设计的系统：一种用流来传输实例的方式一种从实例中提取特征的方法增量式算法

2017-12-07 09:39:33 375

原创 dubbo2.5.6 vs 2.5.7的源码比较

dubbo2.5.6 vs 2.5.7的源码比较分析，大家都能做的小事情，一点点进步，一点点累积。。。

2017-12-06 10:52:20 2257

转载【Scikit-Learn 中文文档】四十：数据集加载工具 - 用户指南 | ApacheCN

sklearn.datasets 包装在 Getting Started 部分中嵌入了介绍一些小型玩具的数据集。为了在控制数据的统计特性（通常是特征的 correlation （相关性）和 informativeness （信息性））的同时评估数据集 (n_samples 和 n_features) 的规模的影响，也可以生成综合数据。这个软件包还具有帮助用户获取更大的数据集的功能，这些数据集通常由机器学习社区使用，用于对来自 ‘real world’ 的数据进行检测算法。

2017-12-06 09:32:32 577

转载【Scikit-Learn 中文文档】三十九：预测目标 (y) 的转换 - 数据集转换 - 用户指南 | ApacheCN

预测目标 (y) 的转换标签二值化LabelBinarizer 是一个用来从多类别列表创建标签矩阵的工具类

2017-12-06 09:30:35 226

转载【Scikit-Learn 中文文档】三十八：成对的矩阵, 类别和核函数 - 数据集转换 - 用户指南 | ApacheCN

The sklearn.metrics.pairwise 子模块实现了用于评估成对距离或样本集合之间的联系的实用程序。本模块同时包含距离度量和核函数，对于这两者这里提供一个简短的总结。距离度量是形如 d(a, b) 例如 d(a, b) < d(a, c) 如果对象 a 和 b 被认为 “更加相似” 相比于 a 和 c. 两个完全相同的目标的距离是零。最广泛使用的例子就是欧几里得距离。为了保证是 ‘真实的’ 度量, 其必须满足以下条件:对于所有的 a 和 b，d(a, b) >= 0正定性：当且仅

2017-12-06 09:28:55 338

转载【Scikit-Learn 中文文档】三十七：内核近似 - 数据集转换 - 用户指南 | ApacheCN

这个子模块包含与某些 kernel 对应的特征映射的函数，这个会用于例如支持向量机的算法当中(see 支持向量机)。下面这些特征函数对输入执行非线性转换，可以用于线性分类或者其他算法。与 kernel trick 相比，近似的进行特征映射更适合在线学习，并能够有效减少学习大量数据的开销。标准化使用内核的 svm 不能有效的适用到海量数据，但是使用近似内核映射的方法，对于线性 SVM 来说效果可能更好。而且，使用 SGDClassifier 进行近似的内核映射，使得对海量数据进行非线性学习也成为了可能

2017-12-06 09:26:52 378

转载【Scikit-Learn 中文文档】三十六：随机投影 - 数据集转换 - 用户指南 | ApacheCN

sklearn.random_projection 模块实现了一个简单且高效率的计算方式来减少数据维度，通过牺牲一定的精度（作为附加变量）来加速处理时间及更小的模型尺寸。这个模型实现了两类无结构化的随机矩阵: Gaussian random matrix 和 sparse random matrix.随机投影矩阵的维度和分布是受控制的，所以可以保存任意两个数据集的距离。因此随机投影适用于基于距离的方法。支撑随机投影效率的主要理论成果是`Johnson-Lindenstrauss lemma (quot

2017-12-05 18:17:32 1658

转载【Scikit-Learn 中文文档】三十五：无监督降维 - 数据集转换 - 用户指南 | ApacheCN

如果你的特征数量很多, 在监督步骤之前, 可以通过无监督的步骤来减少特征. 很多的无监督学习方法实现了一个名为 transform 的方法, 它可以用来降低维度. 下面我们将讨论大量使用这种模式的两个具体示例.

2017-12-04 15:36:21 276

转载【Scikit-Learn 中文文档】三十四：预处理数据 - 数据集转换 - 用户指南 | ApacheCN

sklearn.preprocessing 包提供了几个常见的实用功能和变换器类型，用来将原始特征向量更改为更适合机器学习模型的形式。一般来说，机器学习算法受益于数据集的标准化。如果数据集中存在一些离群值，那么稳定的缩放或转换更合适。不同缩放、转换以及归一在一个包含边缘离群值的数据集中的表现在 Compare the effect of different scalers on data with outliers 中有着重说明。数据集的标准化对scikit-learn中实现的大多数机器学习算法来说

2017-12-04 15:33:56 297

转载【Scikit-Learn 中文文档】三十三：特征提取 - 数据集转换 - 用户指南 | ApacheCN

模块 sklearn.feature_extraction 可用于提取符合机器学习算法支持的特征，比如文本和图片。类 DictVectorizer 可用于将标准的Python字典（dict）对象列表的要素数组转换为 scikit-learn 估计器使用的 NumPy/SciPy 表示形式。虽然 Python 的处理速度不是特别快，但 Python 的 dict 优点是使用方便，稀疏（不需要存储的特征），并且除了值之外还存储特征名称。类 DictVectorizer 实现了 “one-of-K” 或 “

2017-12-04 15:31:20 528

转载【Scikit-Learn 中文文档】三十二：Pipeline（管道）和 FeatureUnion（特征联合）: 合并的评估器 - 数据集转换 - 用户指南 | ApacheCN

Pipeline 可以把多个评估器链接成一个。这个是很有用的，因为处理数据的步骤一般都是固定的，例如特征选择、标准化和分类。Pipeline 主要有两个目的:便捷性和封装性你只要对数据调用 ``fit``和 ``predict``一次来适配所有的一系列评估器。联合的参数选择你可以一次 :ref:`grid search <grid_search>`管道中所有评估器的参数。安全性训练转换器和预测器使用的是相同样本，管道有助于防止来自测试数据的统计数据泄露到交叉验证的训练模型中。管道中的所有评估

2017-12-04 15:21:56 302

转载【Scikit-Learn 中文文档】三十一：模型持久化 - 模型选择和评估 - 用户指南 | ApacheCN

在训练完 scikit-learn 模型之后, 最好有一种方法来将模型持久化以备将来使用，而无需重新训练. 以下部分为您提供了有关如何使用 pickle 来持久化模型的示例. 在使用 pickle 序列化时，我们还将回顾一些安全性和可维护性方面的问题.

2017-12-04 15:18:57 255

转载【Scikit-Learn 中文文档】三十：模型评估: 量化预测的质量 - 模型选择和评估 - 用户指南 | ApacheCN

有 3 种不同的 API 用于评估模型预测的质量:Estimator score method（估计器得分的方法）: Estimators（估计器）有一个 score（得分）方法，为其解决的问题提供了默认的 evaluation criterion （评估标准）。在这个页面上没有相关讨论，但是在每个 estimator （估计器）的文档中会有相关的讨论。Scoring parameter（评分参数）: Model-evaluation tools （模型评估工具）使用 cross-validatio

2017-12-04 10:01:33 1369

转载【Scikit-Learn 中文文档】二十九：优化估计器的超参数 - 模型选择和评估 - 用户指南 | ApacheCN

超参数，即不直接在估计器内学习的参数。在 scikit-learn 包中，它们作为估计器类中构造函数的参数进行传递。典型的例子有：用于支持向量分类器的 C 、kernel 和 gamma ，用于Lasso的 alpha 等。搜索超参数空间以便获得最好交叉验证分数的方法是可能的而且是值得提倡的。通过这种方式，构造估计器时被提供的任何参数或许都能被优化。

2017-12-04 09:59:52 412

转载 [翻译中]【Scikit-Learn 中文文档】二十八：交叉验证 - 模型选择和评估 - 用户指南 | ApacheCN

学习一个预测函数的参数，并在相同数据集上进行测试是一种错误的做法: 一个仅给出测试用例标签的模型将会获得极高的分数，但对于尚未出现过的数据它则无法预测出任何有用的信息。这种情况称为“过拟合”（overfitting）. 为了避免这种情况，在进行（监督）机器学习实验时，通常取出部分可利用数据作为实验测试集（test set）

2017-12-04 09:56:28 478

转载【Scikit-Learn 中文文档】二十七：经网络模型（无监督）- 无监督学习 - 用户指南 | ApacheCN

Restricted Boltzmann machines (RBM)（限制玻尔兹曼机）是基于概率模型的无监督非线性特征学习器。当用 RBM 或 RBMs 中的层次结构提取的特征在馈入线性分类器（如线性支持向量机或感知机）时通常会获得良好的结果。该模型对输入的分布作出假设。目前，scikit-learn 只提供了 BernoulliRBM，它假定输入是二值的，或者是 0 到 1 之间的值，每个值都编码特定特征被激活的概率。RBM 尝试使用特定图形模型最大化数据的可能性。所使用的参数学习算法（ Stoch

2017-12-04 09:54:18 293

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

lonsonlee的专栏