Jackie_Zhu的专栏

我知道有一个内在的我不甘平庸渴望自由无所不能我坚信只要执着和努力总有一天一个真正辉煌的我会离我越来越近让伤痕成为我的勋章让世界的不公平在我面前低头！

09月 08月

原创 Ensemble Learning入门

在机器学习中，已经有了许许多多的模型，比如SVM，逻辑回归等等，这些算法有各自的优缺点，并且每种算法也可以产生非常多的不同的模型。如果把这些算法都结合起来，取其所长，或者说把一些比较弱的分类器结合起来形成一个强分类器（boosting），就可以得到更优的模型

2016-08-26 22:56:32 2757 1

原创逻辑回归（Logistic Regression）和SVM的联系以及Kernel

逻辑回归和SVM都是比较理想的分类器，但是各有优缺点，逻辑回归不仅可以得到具体的分类类别，还可以得到连续的概率值（因为逻辑回归实质上是回归）；SVM则可以利用kernel将特征投影到高维甚至无穷维来更好地拟合数据。这里我们来看一下逻辑回归和SVM之间有没有什么联系，以及能否将kernel应用到逻辑回归上，使得逻辑回归具备类似SVM的非线性分类特性。逻辑回归逻辑回归的假设是下面的一条S型曲线，值域是[

2016-08-26 19:48:50 6739 3

原创 LSSVM(Least Squares SVM)与SVR(支持向量回归)

LSSVM（Least Square SVM）是将Kernel应用到ridge regression中的一种方法，它通过将所有样本用最小二乘误差进行拟合（这个拟合是在kernel变换过的高维空间），但是LSSVM的缺陷是计算复杂度大概是样本数的三次方量级，计算量非常大。为了解决这个问题于是提出了SVR（支持向量回归），SVR通过支持向量减小了LSSVM的计算复杂度，并且具备LSSVM的能够利用ke

2016-08-20 16:33:39 39674 5

原创为什么正则化（Regularization）可以减少过拟合风险

在解决实际问题的过程中，我们会倾向于用复杂的模型来拟合复杂的数据，但是使用复杂模型会产生过拟合的风险，而正则化就是常用的减少过拟合风险的工具之一。过拟合过拟合是指模型在训练集上误差很小，但是在测试集上表现很差(即泛化能力差)，过拟合的原因一般是由于数据中存在噪声或者用了过于复杂的模型拟合数据。如下图所示，下图中的训练样本是三次多项式加了点噪声得到的，然后用不同的多次项拟合，M代表最高次项次数，下面四

2016-08-09 00:56:48 13203 3

原创 SVM(Support Vector Machine)读书笔记三(Soft-margin SVM)

上两篇讲到了hard-margin的SVM以及kernel的原理，利用高斯kernel可以将低维空间转换到无穷维，将所有样本分开。但是如果数据中存在一定的噪声数据，SVM也会将噪声数据拟合，存在过拟合的风险。Soft-margin SVM原理就是让SVM能够容忍一定的噪声数据，以减少过拟合的风险。Hard-margin过拟合问题先看一下上面的相同数据集中的两个模型，左图中的模型能够容忍数据中存在

2016-08-03 23:14:12 10735 3