2017年08月_瑟瑟发抖的菜鸡望

转载 3.1. Cross-validation: 评估 estimator 的性能

1.13. 特征选择(Feature selection)sklearn.feature_selection 模块中的类能够用于数据集的特征选择/降维，以此来提高预测模型的准确率或改善它们在高维数据集上的表现。1.13.1. 移除低方差的特征(Removing features with low variance)VarianceThreshold 是特征选择中的一

2017-08-11 21:08:51 2268

转载 scikit-learn数据预处理

4.3. 数据预处理``sklearn.preprocessing``包为用户提供了多个工具函数和类，用于将原始特征转换成更适于项目后期学习的特征表示。4.3.1. 标准化、去均值、方差缩放(variance scaling)数据集的** 标准化对于在scikit中的大部分机器学习算法来说都是一种常规要求 ** 。如果单个特征没有或多或少地接近于标准正态分布：**

2017-08-11 20:30:08 517

转载 1.13. 特征选择(Feature selection)

1.13. 特征选择(Feature selection)sklearn.feature_selection 模块中的类能够用于数据集的特征选择/降维，以此来提高预测模型的准确率或改善它们在高维数据集上的表现。1.13.1. 移除低方差的特征(Removing features with low variance)VarianceThreshold 是特征选择中的一项基

2017-08-11 17:40:31 1610

转载 1.12. Multiclass and multilabel algorithms 多分类多标签算法

1.12. Multiclass and multilabel algorithmsWarning All classifiers in scikit-learn do multiclass classification out-of-the-box. You don’t need to use thesklearn.multiclass module unless y

2017-08-11 17:30:15 6962

转载 Adaboost

转自：http://blog.csdn.net/dream_angel_z/article/details/467648451.基于数据集多重抽样的分类器-AdaBoost优点泛化错误率低，易编码，可以应用在大部分分类器上，无需参数调整缺点对离群点敏感适合数据类型数值型和标称型数

2017-08-10 20:54:03 451

转载梯度树提升算法GBRT

本文由拾毅者发布于http://blog.csdn.net/dream_angel_z/article/details/48085889，转载请注明出处，如果有问题，请联系：csu.ldw@csu.edu.cnIntroduction决策树这种算法有着很多良好的特性，比如说训练时间复杂度较低，预测的过程比较快速，模型容易展示（容易将得到的决策树做成图片展示出来）等。但是同时，单决策

2017-08-10 20:42:04 2093

转载 1.11. 集成方法

1.11. 集成方法集成方法结合不同分类器的预测结果，这些分类器分别来自于不同的学习算法，相比于单一分类器以提高分类器的泛化/健壮性。集成方法通常分为两类：在一般方法中，方法的原理是使用若干个独立的分类器，然后取这若干个分类器的平均结果作为集合方法结果。一般情况下，集成分类器（the combined estimator）通常优于它包含的单个分类器的效

2017-08-10 19:35:19 1621 1

转载集成学习

转自：http://www.cnblogs.com/wxquare/p/5440664.html集成学习方法集成学习是机器学习算法中非常强大的工具，有人把它称为机器学习中的“屠龙刀”，非常万能且有效，在各大机器学习、数据挖掘竞赛中使用非常广泛。它的思想非常简单，集合多个模型的能力，达到“三个臭皮匠，赛过诸葛亮”的效果。集成学习中概念是很容易理解的，但

2017-08-09 18:16:55 408

转载决策树原理

转载自：http://www.cnblogs.com/bourneli/archive/2013/03/15/2961568.html算法原理决策树（Decision Tree）是一种简单但是广泛使用的分类器。通过训练数据构建决策树，可以高效的对未知的数据进行分类。决策数有两大优点：1）决策树模型可以读性好，具有描述性，有助于人工分析；2）效率高，决策树只需要一次构建，反复使用

2017-08-08 20:16:07 1167

转载 1.10. Decision Trees

1.10. Decision TreesDecision Trees (DTs) are a non-parametric supervised learning method used for classification and regression. The goal is to create a model that predicts the value of a target

2017-08-08 16:44:38 806

转载朴素贝叶斯原理

转载自：http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html1.1、摘要贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。本文作为分类算法的第一篇，将首先介绍分类问题，对分类问题进行一个正式的定义。然后，介绍贝叶斯分

2017-08-07 20:36:33 564

转载 1.9. 朴素贝叶斯

1.9. 朴素贝叶斯朴素贝叶斯方法是一系列有监督学习的方法，这些方法基于对贝叶斯理论的应用，即简单(naive)的假设每对特征之间都相互独立。给定类变量 (这里一个样本仅属于一类) 和一个相互独立的特征向量到，贝叶斯定理可得到如下关系：使用简单(naive)的假设-每对特征之间都相互独立：对于所有，这个关系式可以化简为：

2017-08-07 20:22:58 597

转载 1.7. 高斯过程(Gaussian Processes)

针对机器学习的高斯过程(Gaussian Processes for Machine Learning,即 GPML) 是一个通用的监督学习方法，主要被设计用来解决回归问题。它也可以扩展为概率分类(probabilistic classification)，但是在当前的实现中，这只是回归练习的一个后续处理。GPML的优势如下:预测是对观察值的插值（至少在普通相关模型

2017-08-07 19:54:37 25069 1

转载 1.6. 最邻近算法

最邻近法主要是一种非监督或基于临近的监督学习方法. 非监督最邻近法是许多其他学习算法的基础，特别是流行学习方法及谱聚类方法. 基于临近的监督分类主要在一下两方面具有优势: 具有离散标签数据的`分类`和连续标签数据的`回归`..The principle behind nearest neighbor methods is to find a predefined number of

2017-08-07 18:18:55 9838

转载 scikit-learn 1.5. Stochastic Gradient Descent

1.5. 随机梯度下降Stochastic Gradient Descent (SGD) 是一种简单但又非常高效的方式判别式学习方法，比如凸损失函数的线性分类器如Support Vector Machines 和 Logistic Regression. 虽然SGD已经在机器学习社区出现很长时间，但是在近期在大规模机器学习上受到了相当大数量的关注。SGD 已经被成功应用到大规模和稀疏机

2017-08-07 17:58:37 1323

u010016927的博客