0-00-0-CSDN博客

原创机器学习实战【9】（岭回归和Lasso）

本博客记录《机器学习实战》（MachineLearningInAction）的学习过程，包括算法介绍和python实现。岭回归岭回归（Ridge Regression），是一种线性回归方法，在最小二乘法的基础上加入一个正则项，以解决样本数少于特征数以及特征存在线性相关（多重共线性）时产生的问题。最小二乘法多元线性模型y=Xβ+ϵy=X\beta+\epsilon中，ϵ\epsilon为残差项，残差

2017-11-07 13:42:46 1325 1

原创机器学习实战【8】（AdaBoost）

本博客记录《机器学习实战》（MachineLearningInAction）的学习过程，包括算法介绍和python实现。AdaBoost算法Adaboost，即Adaptive Boosting（自适应增强），是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器（弱分类器），然后把这些弱分类器组合起来，构成一个更强的分类器（强分类器）。算法原理算法训练出的每个分类器都有一个权重，最终分类时

2017-10-31 13:29:07 316

原创机器学习实战【7】（SMO算法实现）

本博客记录《机器学习实战》（MachineLearningInAction）的学习过程，包括算法介绍和python实现。SMO算法前两篇文章介绍了SVM的原理，经过一番推导，原始问题转化为： minα∑i=1n12∑i,j=1nαiαjyiyjK(xi,xj)−αis.t.,0≤αi≤C,i=1,...,n∑i=1naiyi=0 \min_{\alpha} \sum_{i=1}^{n} \fra

2017-09-23 17:17:36 997

原创机器学习实战【6】（非线性SVM）

本博客记录《机器学习实战》（MachineLearningInAction）的学习过程，包括算法介绍和python实现。非线性SVM上一篇文章中介绍的SVM能够解决很多线性分类问题，但存在两个问题。一是分隔平面附近的噪声点会对平面造成很大的影响，甚至造成无解；二是这个分类器对非线性的数据无能为力。松弛变量解决第一个问题，即减小噪声点的影响，可以通过松弛变量来完成。简单地说就是用一个变量对约束条件进

2017-09-08 23:01:53 621

原创机器学习实战【5】（SVM-支持向量机）

本博客记录《机器学习实战》（MachineLearningInAction）的学习过程，包括算法介绍和python实现。SVM（支持向量机）SVM是一种分类算法，通过对训练集数据的分析找到最好的分隔平面，然后用该平面对新数据进行分类。本篇文章介绍SVM的总体思路，通过一些数学推导把初始问题不断简化，最后转化为一个比较简单的二次优化问题。限于篇幅，将在下一篇文章中介绍解决这个问题的SMO算法。线性二

2017-08-27 15:19:35 1259

原创机器学习实战【4】（逻辑回归）

本博客记录《机器学习实战》（MachineLearningInAction）的学习过程，包括算法介绍和python实现。逻辑回归对于一个数据集中的样本，将其每个特征乘上一个对应的系数，然后输入sigmoid函数中把结果映射到0-1区间内，用这个结果作为分类依据，这种方式称为逻辑回归。

2017-07-21 10:48:05 624

原创机器学习实战【3】（朴素贝叶斯）

本博客记录《机器学习实战》（MachineLearningInAction）的学习过程，包括算法介绍和python实现。朴素贝叶斯贝叶斯准则是用于计算条件概率的方法，公式如下： p(c|x)=p(x|c)p(c)p(x)p(c|x) = \frac{p(x|c)p(c)}{p(x)} 用朴素贝叶斯方法进行分类器的基本思想就是计算出新数据分到每一个类别的概率。

2017-07-19 17:08:18 352

原创机器学习实战【2】（决策树ID3算法）

本博客记录《机器学习实战》（MachineLearningInAction）的学习过程，包括算法介绍和python实现。决策树由一个数据集构造决策树的关键是对数据集的拆分，ID3算法的数据划分是依据信息增益的，简单地说就是选择一种能够使划分过后的信息增益最大的方式划分数据集。例如，一组数据的特征有两个，一是不浮出水面能否生存（no surfacing），二是是否有脚蹼（flippers），根据这两

2017-07-17 15:49:08 457

原创机器学习实战【1】（kNN）

本博客记录《机器学习实战》（MachineLearningInAction）的学习过程，包括算法介绍和python实现。kNN算法kNN算法计算输入的新数据与样本集中所有数据的距离，取其中距离最近（特征最相似）的k个数据，用其中出现次数最多的分类作为新数据的分类。

2017-07-17 09:51:37 274

Rimble