机器学习
文章平均质量分 81
urtheappleinmyeye
福州大学通信本科,南京邮电大学通信硕士,爱好互联网,算法,Android开发,机器挖掘/深度学习,嵌入式开发,J2EE开发,移动通信,欢迎大家一起交流。
展开
-
机器学习之支持向量机(SVM)通俗详解(9)
接下来要说的东西其实不是松弛变量本身,但由于是为了使用松弛变量才引入的,因此放在这里也算合适,那就是惩罚因子C。回头看一眼引入了松弛变量以后的优化问题:注意其中C的位置,也可以回想一下C所起的作用(表征你有多么重视离群点,C越大越重视,越不想丢掉它们)。这个式子是以前做SVM的人写的,大家也就这么用,但没有任何规定说必须对所有的松弛变量都使用同一个惩罚因子,我们完全可以给每一个离群原创 2014-02-13 14:47:10 · 180 阅读 · 0 评论 -
初步体验libsvm用法(matlab实例)
最近在研究svm,当然就无法错过台湾的大牛写得libsvm了,现在我们就用libsvm在matlab中做一些实验来看看效果:当然,首先得学会使用在matlab中学会使用libsvm,详情请见我的微博:http://blog.csdn.net/urtheappleinmyeye/article/details/20386465一、16棋盘格数据分类试验目的:产生16棋盘的原创 2014-03-03 17:15:51 · 598 阅读 · 0 评论 -
在Matlab下使用libsvm的方法
这个链接可以下载到libsvm。一个台湾人写得,很好很强大。http://www.csie.ntu.edu.tw/~cjlin/libsvm/不需要安装,直接解压缩就行了。很方便。使用方法,在README里面都写得很清楚了,其中matlab那个文件下也有README。我在这里就我自己感兴趣的东西,列几条。我是在windows平台下原创 2014-03-03 17:17:17 · 483 阅读 · 0 评论 -
机器学习之支持向量机(SVM)通俗详解(1)
支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无原创 2014-02-13 14:27:59 · 191 阅读 · 0 评论 -
机器学习之支持向量机(SVM)通俗详解(8)
现在我们已经把一个本来线性不可分的文本分类问题,通过映射到高维空间而变成了线性可分的。就像下图这样: 圆形和方形的点各有成千上万个(毕竟,这就是我们训练集中文档的数量嘛,当然很大了)。现在想象我们有另一个训练集,只比原先这个训练集多了一篇文章,映射到高维空间以后(当然,也使用了相同的核函数),也就多了一个样本点,但是这个样本的位置是这样的: 就是图中黄色原创 2014-02-13 14:44:47 · 162 阅读 · 0 评论 -
机器学习之支持向量机(SVM)通俗详解(5)
从最一般的定义上说,一个求最小值的问题就是一个优化问题(也叫寻优问题,更文绉绉的叫法是规划——Programming),它同样由两部分组成,目标函数和约束条件,可以用下面的式子表示:(式1)约束条件用函数c来表示,就是constrain的意思啦。你可以看出一共有p+q个约束条件,其中p个是不等式约束,q个等式约束。关于这个式子可以这样来理解:式中的x是自变量,但不限定它的维原创 2014-02-13 14:39:41 · 143 阅读 · 0 评论 -
机器学习之支持向量机(SVM)通俗详解(7)
生存?还是毁灭?——哈姆雷特可分?还是不可分?——支持向量机之前一直在讨论的线性分类器,器如其名(汗,这是什么说法啊),只能对线性可分的样本做处理。如果提供的样本线性不可分,结果很简单,线性分类器的求解程序会无限循环,永远也解不出来。这必然使得它的适用范围大大缩小,而它的很多优点我们实在不原意放弃,怎么办呢?是否有某种方法,让线性不可分的数据变得线性可分呢?有!其思想说来也原创 2014-02-13 14:41:44 · 158 阅读 · 0 评论 -
机器学习之支持向量机(SVM)通俗详解(6)
让我再一次比较完整的重复一下我们要解决的问题:我们有属于两个类别的样本点(并不限定这些点在二维空间中)若干,如图,圆形的样本点定为正样本(连带着,我们可以把正样本所属的类叫做正类),方形的点定为负例。我们想求得这样一个线性函数(在n维空间中的线性函数):g(x)=wx+b使得所有属于正类的点x+代入以后有g(x+)≥1,而所有属于负类的点x-代入后有g(x-)≤-1原创 2014-02-13 14:40:52 · 152 阅读 · 0 评论 -
机器学习之支持向量机(SVM)通俗详解(4)
上节说到我们有了一个线性分类函数,也有了判断解优劣的标准——即有了优化的目标,这个目标就是最大化几何间隔,但是看过一些关于SVM的论文的人一定记得什么优化的目标是要最小化||w||这样的说法,这是怎么回事呢?回头再看看我们对间隔和几何间隔的定义:间隔:δ=y(wx+b)=|g(x)|几何间隔: 可以看出δ=||w||δ几何。注意到几何间隔与||w||是成反比的,因此原创 2014-02-13 14:38:03 · 144 阅读 · 0 评论 -
机器学习之支持向量机(SVM)通俗详解(3)
上回说到对于文本分类这样的不适定问题(有一个以上解的问题称为不适定问题),需要有一个指标来衡量解决方案(即我们通过训练建立的分类模型)的好坏,而分类间隔是一个比较好的指标。在进行文本分类的时候,我们可以让计算机这样来看待我们提供给它的训练样本,每一个样本由一个向量(就是那些文本特征所组成的向量)和一个标记(标示出这个样本属于哪个类别)组成。如下:Di=(xi,yi)xi原创 2014-02-13 14:36:28 · 166 阅读 · 0 评论 -
机器学习之支持向量机(SVM)通俗详解(2)
SVM入门(二)线性分类器Part 1线性分类器(一定意义上,也可以叫做感知机) 是最简单也很有效的分类器形式.在一个线性分类器中,可以看到SVM形成的思路,并接触很多SVM的核心概念.用一个二维空间里仅有两类样本的分类问题来举个小例子。如图所示C1和C2是要区分的两个类别,在二维平面中它们的样本如上图所示。中间的直线就是一个分类函数,它可以将两类样本完原创 2014-02-13 14:33:49 · 181 阅读 · 0 评论 -
浅谈有监督和无监督的学习
今天我们来讨论一下机器学习的主要的两类方法:当训练用例被标记了正确结果的时候,监督学习方式为怎样改进学习给出一个反馈。这类似于教官教导某个Agent,它的行为是否正确。对无监督学习来说这个目标很难实现,因为缺乏事先确定的分类。·监督学习监督学习是最常见的分类问题,因为目标往往是让计算机去学习我们已经创建好的分类系统。数字识别再一次成为分类学习的常见样本。更一般地说,对于那些原创 2014-03-04 13:20:52 · 429 阅读 · 0 评论