2018年04月_BIT_666

原创 LASSO回归与L1正则化西瓜书

1.结构风险与经验风险在支持向量机部分，我们接触到松弛变量，正则化因子以及最优化函数，在朴素贝叶斯分类，决策树我们也遇到类似的函数优化问题。其实这就是结构风险和经验风险两种模型选择策略，经验风险负责最小化误差，使得模型尽可能的拟合数据，而结构风险则负责规则化参数，使得参数的形式尽量简洁，从而达到防止过拟合的作用.所以针对常见模型，我们都有下式：.........

2018-04-23 19:29:57 16868 20

了解了SVM的基本形式与算法实现，接下来用SKlearn实现支持向量机分类器.1.函数定义与参数含义先看一下SVM函数的完全形式和各参数含义：SVC(C=1.0,kernel=’rbf’,degree=3,gamma=’auto’,coef0=0.0,shrinking=True,probability=False,tol=0.001,cache_size=200,class_w.........

2018-04-22 17:49:19 13755 7

原创 SVM支持向量机-核函数python实现（7）

数据可视化上篇文章介绍了线性不可分和线性可分两种情况，以及五种核函数，线性核函数（linear），多项式核函数（poly），高斯核函数（rbf），拉普拉斯核函数（laplace）和Sigmoid核函数，基于《机器学习实战》的数据，我们使用各种核函数对数据尝试分类，下面看一下效果如何.首先看一下我们的数据集：.........

2018-04-19 23:52:12 21488 10

原创 SVM支持向量机-核函数（6）

引言：前边几篇文章中提到的分类数据点，我们都假设是线性可分的，即存在超平面将样本正确分类，然而现实生活中，存在许多线性不可分的情况，例如“异或”问题就不是线性可分的，看一下西瓜书上的一个"异或"的例子，对于二维数据点，[0,0],[1,1]属于0类，[0,1],[1,0]属于1类，我们就无法用一条直线超平面将样本数据分类.线性可分-常规数据.........

2018-04-18 12:18:46 9948 4

原创 SVM支持向量机-《机器学习实战》SMO算法Python实现（5）

经过前几篇文章的学习，SVM的优化目标，SMO算法的基本实现步骤，模型对应参数的选择，我们已经都有了一定的理解，结合《机器学习实战》，动手实践一个基本的SVM支持向量机，来完成一个简单的二分类任务。建立模型之前，首先看一下我们的数据，然后再用支持向量机实现分类：这里只截取部分，我们的数据是......

2018-04-16 14:57:59 2943 4

原创 SVM支持向量机-Alpha范围界定与调整（4）

SVM支持向量机-SMO算法推导(2)一文中我们写到了α2的范围选择，这里单独解释一下L,H的计算，和α2的调整规则。1.范围限定先看一下SMO算法推导那篇文章中α2的范围：依据简化约束，我们需要分两种情况讨论（其实是四种），y1=y2 和 y1≠y2：y1≠y2......

2018-04-12 14:38:26 3626

原创 SVM支持向量机-软间隔与松弛因子（3）

上一篇文章推导SMO算法时，我们通过导入松弛因子，改变了对偶问题的约束条件，这里涉及到软间隔和正则化的问题，我们一直假定训练样本是完美无缺的，样本在样本空间或特征空间一定是线性可分的，即存在一个超平面将不同类的样本完全划分开，然而现实中，数据往往不那么‘完美’，即使找到完美的它，我们也很难断定这里的线性可分是否存在过拟合。如何解决这个问题呢，允许支持向量机在一些样本上出错，这样我们便引入了软间隔：......

2018-04-11 11:46:06 2703 6

原创 SVM支持向量机-SMO算法公式推导（2）

1.SMO算法简介SMO算法又称序列最小优化，是John Platt发布的的一种训练SVM的强大算法，SMO算法的思想是将大的优化问题转换为多个小优化问题，这些小的优化往往很容易求解，并且对他们进行顺序求解和作为整体求解的结果是完全一致的。SMO算法的目标是求出一些列alpha和b，一旦求出alpha，我们的超平面w的系数便得到，我们就可以利用超平面来进行分类了。SMO算法的工作原理是每次循环中选......

2018-04-10 17:00:29 3422 2

原创 SVM支持向量机-拉格朗日乘子与对偶问题（1）

对于支持向量机，我们首先要关注的几个点就是间隔，超平面，支持向量，再深入的话就是对偶问题，拉格朗日对偶问题，凸优化，和KKT条件，我们先从基本的间隔，超平面，支持向量说起。1.SVM基础模型给定训练集D={(x1,y1),(x2,y2)...(xn,yn)},yi∈{-1,1}，例如下面图中的点，蓝线左上方的6个点对应1类，右下方的6个点对应-1类，基于数据分类的思想，如果我......

2018-04-09 17:06:43 25878 9

原创 logistic回归-(sklearn)参数含义及实现（3）机器学习实战

经过前两篇的介绍，相信对logistic回归分类已经有一些了解了，下面我们用书上的例子，使用之前的代码和sklearn的库函数解决，看看效果怎么样。示例：从疝气疾病预测病马的死亡率1.书中代码实现这里先导入两个上篇文章的函数，分别是sigmoid函数和随机梯度上升法求最优权数的函数。def sigmoid(inX):#sigmoid函数 return 1.0/(1+exp(-in......

2018-04-02 13:39:57 4654 2

原创 Logistic回归-实现（2）机器学习实战

上一篇文章我们对logistic回归分类的实现过程大致进行了了解，对书中的梯度上升法实现过程也进行了证明，下面就进入实践环节，看看logistic回归分类的实现过程。1.训练算法：使用梯度上升找到最优参数首先处理的是一些二维数据点的分类情况，数据对应的信息存在TestSet.txt文件中，下面让我们看一下具体的实现过程：from numpy import *def loadDa......

2018-04-01 11:13:48 556

BITDDD小栈