chouchouzzj-CSDN博客

转载【sklearn-cookbook-zh】第五章模型后处理

第五章模型后处理作者：Trent Hauck译者：飞龙协议：CC BY-NC-SA 4.05.1 K-fold 交叉验证这个秘籍中，我们会创建交叉验证，它可能是最重要的模型后处理验证练习。我们会在这个秘籍中讨论 k-fold 交叉验证。有几种交叉验证的种类，每个都有不同的随机化模式。K-fold 可能是一种最熟知的随机化模式。准备我们会创建一些数据集，之后在不同的在不同...

2020-04-15 12:51:41 608

转载【sklearn-cookbook-zh】第四章使用 scikit-learn 对数据分类

第四章使用 scikit-learn 对数据分类作者：Trent Hauck译者：飞龙协议：CC BY-NC-SA 4.0分类在大量语境下都非常重要。例如，如果我们打算自动化一些决策过程，我们可以利用分类。在我们需要研究诈骗的情况下，有大量的事务，人去检查它们是不实际的。所以，我们可以使用分类都自动化这种决策。4.1 使用决策树实现基本的分类这个秘籍中，我们使用决策树执行...

2020-04-15 12:49:29 720

转载【sklearn-cookbook-zh】第一章模型预处理

第一章模型预处理作者：Trent Hauck译者：muxuezi协议：CC BY-NC-SA 4.0本章包括以下主题：从外部源获取样本数据创建试验样本数据把数据调整为标准正态分布用阈值创建二元特征分类变量处理标签特征二元化处理缺失值用管线命令处理多个步骤用主成分分析降维用因子分析降维用核PCA实现非线性降维用截断奇异值分解降维用字典学习分解法分类...

2020-04-15 12:48:37 573

转载【sklearn-cookbook】第三章使用距离向量构建模型

第三章使用距离向量构建模型作者：Trent Hauck译者：飞龙协议：CC BY-NC-SA 4.0这一章中，我们会涉及到聚类。聚类通常和非监督技巧组合到一起。这些技巧假设我们不知道结果变量。这会使结果模糊，以及实践客观。但是，聚类十分有用。我们会看到，我们可以使用聚类，将我们的估计在监督设置中“本地化”。这可能就是聚类非常高效的原因。它可以处理很大范围的情况，通常，结果也不...

2020-04-15 12:47:12 242

转载【sklearn-cookbook-zh】第二章处理线性模型

第一章模型预处理作者：Trent Hauck译者：muxuezi协议：CC BY-NC-SA 4.0本章包括以下主题：从外部源获取样本数据创建试验样本数据把数据调整为标准正态分布用阈值创建二元特征分类变量处理标签特征二元化处理缺失值用管线命令处理多个步骤用主成分分析降维用因子分析降维用核PCA实现非线性降维用截断奇异值分解降维用字典学习分解法分类...

2020-04-15 11:54:56 476