2018年02月_Elong_Hu

原创台大林轩田支持向量机（SVM）完全解读

欢迎批评机器学习之线性支持向量机机器学习之对偶支持向量机机器学习之核函数支持向量机机器学习之软间隔支持向量机机器学习之核函数逻辑回归机器学习之支持向量机回归最后感谢林轩田老师。...

2018-02-26 23:40:38 3216

核函数山脊回归Represent Theorem表达理论就是指如果一个模型是带有L2正则化的线性模型，那么它在最佳化的时候的权重参数值W*将能够用Z空间的资料的线性组合来表示。它的推论就是L2的正则化线性模型能够核函数化如下图所示：现在我们的目标就是用核函数的方式去解决回归问题，而且希望像解决普通线性回归问题一样得到一个一步登天的解。核函数山脊回归问题山脊回归问题是一个典型的带有L2正则化的问题，...

2018-02-26 23:34:36 12131

原创机器学习之核函数逻辑回归（机器学习技法）

从软间隔SVM到正则化从参数ξ谈起在软间隔支持向量机中参数ξ代表某一个资料点相对于边界犯错的程度，如下图：在资料点没有违反边界时ξ的值为0，在违反边界时的值就会大于0。所以总的来说ξ的值等于max(1 - y(WZ + b) , 0)。所以我们把问题合并如下：这样这个问题就变成了一个没有条件的问题。与L2正则化的关系上述简化后的问题与L2的正则化极其相似：它们的目标都是最小化W²与一个错误衡量的和...

2018-02-24 18:48:13 8514

原创机器学习之软间隔支持向量机（机器学习技法）

为什么要软间隔SVM硬边距SVM的过拟合对于硬边距SVM产生过拟合的原因主要有两点：①我们选用的模型复杂度太高 ②我们坚持要将资料严格的分开。如下：从直觉来说Φ1虽然有一些犯错的地方但是它的模型复杂度较低不容易过拟合。我们不在执着于将资料严格分开（容忍一些小错误），我们想要的是较低的复杂度的模型来降低过拟合的危险。软边距SVM的诞生在pocket算法中我们的思想是找到犯错误最小的模型，它不执著与将...

2018-02-21 20:04:18 7277 1

原创机器学习之核函数支持向量机（机器学习技法）

为什么要有个核函数在对偶支持向量机中我们谈到要避开特征转换后高VC维度空间给我们带来的计算复杂度的影响。但是单单的对偶问题没有实现这一点，对偶问题只是让计算看起来避开了VC维度带来的影响，但是这个VC维度还是潜藏在了计算的过程中。上图是SVM的拉格朗日对偶问题转换为标准的二次规划问题（以下称之为QP问题）的结果。其中QD矩阵的计算中包含了Z向量的内积。而Z向量是由原始X空间（它的VC维度为d）经过...

2018-02-20 09:44:53 4374

原创机器学习之对偶支持向量机（机器学习技法）

为什么要有一个对偶问题一般SVM的求解一般SVM的求解我们的目标就是最小化W²而且伴随着一个条件如下图：在实务上我们通常把这个标准问题转化为一个二次规划的问题（以下称之为QP问题）然后使用软件去解决这个问题找到最优的b，W：在我们得到一个线性的SVM的时候我们可以通过特征转换让SVM变成更为强大的非线性分类器。遇到的问题和我们的目标在解决QP问题是时我们会遇到d+1个变量和N个约束条件，有时候由于...

2018-02-18 18:47:09 1184 1

原创机器学习之线性支持向量机（机器学习技法）

胖的就是好的（以二元分类为例）直觉的选择现在我们已经能够分割线性的资料了，但是由于以前的算法（PLA，Pocket，etc.）具有一些随机性所以我们得到的线性模型不尽相同。如下图：在图中所有的模型（超平面）都能够分割样本中的资料，而且在VC上限的保证下这3个模型好像没有什么不同。但是仅仅凭借直觉我们可能会选择第3个仿佛有什么好处。一个全新的角度我们做机器学习的目标就是模型要在测试的资料上表现的好（...

2018-02-17 01:08:45 2101 6

原创台大林轩田机器学习基石学习笔记（一键直达）

机器学习基石，从内核展示了机器学习原理是每个机器学习工程师必看的经典教程。还有就是林老师很帅！什么是机器学习？PLA算法机器学习的VC维度机器学习中的噪音机器学习中的错误衡量机器学习之线性回归机器学习之梯度下降法机器学习之多元分类机器学习之非线性分割机器学习之特征转换与过拟合机器学习之正则化机器学习之模型检验分享主流机器学习教程最后致敬林轩田老师，感谢！...

2018-02-13 11:57:32 4326

原创机器学习之模型检验

模型检验的目的随着学习算法种类，特征转换方式，正则化方式等等的增加，在不同的组合之下我们就会得到种类非常多的学习模型。而在实务上我们通常想要的就是那个Eout最小的模型，所以我们在面临众多的学习模型的时候需要作出选择，而模型检验结果的好坏正是我们作出选择的依据。下图为一个学习模型的不同组成方式：模型选择问题通过Eout选择模型？这是不可行的。我们希望在得到的模型中选择一个做的最好的模型g要使得它的...

2018-02-13 11:41:43 9442

原创机器学习之正则化（机器学习基石）

正则化的目标在机器学习问题中有时会由于资料量太少、有杂讯或者是学习模型的复杂度太高会导致一种Ein≈0（样本内的错误率）但是Eout（实际估计中的错误率）很高的现象这种现象就叫过拟合（详情请点击打开链接了解过拟合）。正则化的目标就是要优化这种过拟合的现象，而且正则化是通过降低模型复杂度来解决过拟合的。直观的理解如下图：正则化的前置步骤前提说明：在以下的案例中所有的模型都经过了特征转换，都转换成了高...

2018-02-11 11:11:45 986 2

原创机器学习之特征转换与过拟合（机器学习基石）

什么是特征转换特征转换就是将原始资料（不容易数据化）转换为有意义的资料（能够数据化），或者说是计算机能够处理的资料。比如说我们可以将像素点转换为一些有强度特制的，对称性的资料以便我们从中找出规律。还比如我们上次提到的X空间-->Z空间-->X空间的方法（一个非线性分割的例子详情请点击打开链接）。特征转换遇到的问题当我们将一个低维度的非线性的模型转换成高维度的线性模型的时候我们会有3方面...

2018-02-10 10:09:52 2541

原创机器学习之非线性分割（机器学习基石）

从线性到非线性在以前接触过的学习算法中（PLA，LinearRegression，LogisticRegression）它们所做的工作都是对资料做线性的判断。单拿二元分类来说他们无法分割非线性的资料。如上图所示如果注意到坐标的话这个二元分类的模型表达式如下（假设圆的半径的平方为0.6）：如果面上的点到圆心的距离平方和>0.6的话就判定为x，如果面上的点到圆心的距离平方和&...

2018-02-08 23:27:30 2217

原创机器学习之多元分类（机器学习基石）

一个案例如上图所示我们要使用一些线性模型来分割这四种不同的图案，利用以前学过的二元分类我们可以将某一个种类分别从整体中分离出来。比如将图通是方块和不是方块的做二元分类，是三角形的和不是三角形的进行分类等等，然后我们得到下图：问题的出现如上图所示我们在单独的分割中可以分别将我们想要的目标图案分割出来，但是我们将这些图标片综合起来看得到下图：在图中带有标号的区域就是公共区域，在公共区域内的判断是矛盾的...

2018-02-08 10:31:32 4043

原创机器学习之梯度下降法（机器学习基石）

从二元分类到罗吉斯回归在预测一个病人的患病情况的时候如果我们单纯的想预测下一个病人是否患病那么就会用到二元分类。但是如果我们现在预测某个病人患病的概率是多大的话显然二元分类就满足不了我们的要求于是就诞生了Logistic Regression。Logistic Regression的假设模型我们现在拥有的资料并不是我们所预期的类似于（某个病人，患病的概率）这样的资料，我们拥有的是（某个病人，是否患...

2018-02-07 12:40:01 1611

原创机器学习之线性回归（机器学习基石）

引子在一个二元分类的问题中我们通常得到的结果是1/0，而在分类的过程中我们会先计算一个得分函数然后在减去一个门槛值后判断它的正负若为正则结果为1若为负结果为0。事实上从某种角度来看线性回归只是二元分类步骤中的一个截取它没有后面取正负号的操作，它的输出结果为一个实数而非0/1。我们称这样的数学模型为线性回归。在传统上统计学家给出的结果是如下：它的物理意义就是要提取多笔资料的...

2018-02-05 11:08:22 2787

原创分享主流机器学习教程

你要的都在这里内含吴恩达老师，林轩田老师，龙星计划等主流机器学习视频

2018-02-03 23:17:30 579

原创机器学习中的错误衡量（机器学习基石）

为什么有个错误衡量在看完周志华老师《机器学习》中的归纳偏好中有这样的描述：归纳偏好就是要做出学习算法本身“什么样的模型更好”的假设。在这里我们要给模型的好坏下一个定义如果算法A比算法B好，那么一定要定义什么是好。在没有定义什么是好之前我们无法找到我们的模型要训练的方向。那么反过来当我们遇到错误的时候我们就要给错误下一个定义。举一个例子，在战争时期我打死一个敌人对于我方来说是一件好事

2018-02-03 23:11:56 685

原创机器学习中的噪音（机器学习基石）

noise的产生在机器学习中我们在独立随机抽样的时候会出现一些搞错的信息，这些错误的数据我们称之为杂讯（或者噪音 noise），一般可以归结为一下两种（以二分为例）：输出错误：1.同样的一笔数据会出现两种不同的评判 2.在同样的评判下会有不同的后续处理。输入错误：1.在收集数据的时由于数据源的随机性会出现错误（比如说，客户在填信息的时候出现的误填）noise的情况下VC维度的可用性在有nois...

2018-02-01 23:59:20 20337 1

qq_34993631的博客