自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (5)
  • 收藏
  • 关注

转载 SVM入门(十)将SVM用于多类分类

SVM入门(十)将SVM用于多类分类从 SVM的那几张图可以看出来,SVM是一种典型的两类分类器,即它只回答属于正类还是负类的问题。而现实中要解决的问题,往往是多类的问题(少部分例外,例如垃圾邮件过滤,就只需要确定“是”还是“不是”垃圾邮件),比如文本分类,比如数字识别。如何由两类分类器得到多类分类器,就是一个值得研究的问题。 还以文本分类为例,现成的方法有很多,其中一种一劳永逸的方法,就是真的一次性考虑所有样本,并求解一个多目标函数的优化问题,一次性得到多个分类面,就像下图这样: 多个超平面把空间划分为多

2011-04-11 17:46:00 562

转载 SVM入门(九)松弛变量(续)

<br />SVM入门(九)松弛变量(续)接下来要说的东西其实不是松弛变量本身,但由于是为了使用松弛变量才引入的,因此放在这里也算合适,那就是惩罚因子C。回头看一眼引入了松弛变量以后的优化问题: <br /><br />注意其中C的位置,也可以回想一下C所起的作用(表征你有多么重视离群点,C越大越重视,越不想丢掉它们)。这个式子是以前做SVM的人写的,大家也就这么用,但没有任何规定说必须对所有的松弛变量都使用同一个惩罚因子,我们完全可以给每一个离群点都使用不同的C,这时就意味着你对每个样本的重视程度都不一样

2011-04-11 17:43:00 462

转载 SVM入门(八)松弛变量

<br />SVM入门(八)松弛变量<br />现在我们已经把一个本来线性不可分的文本分类问题,通过映射到高维空间而变成了线性可分的。就像下图这样:<br /><br /> 圆形和方形的点各有成千上万个(毕竟,这就是我们训练集中文档的数量嘛,当然很大了)。现在想象我们有另一个训练集,只比原先这个训练集多了一篇文章,映射到高维空间以后(当然,也使用了相同的核函数),也就多了一个样本点,但是这个样本的位置是这样的:<br /><br /> 就是图中黄色那个点,它是方形的,因而它是负类的一个样本,这单独的一个样本

2011-04-11 17:26:00 499

转载 SVM入门(七)为何需要核函数

<br />SVM入门(七)为何需要核函数<br />生存?还是毁灭?——哈姆雷特 <br />可分?还是不可分?——支持向量机 <br />之前一直在讨论的线性分类器,只能对线性可分的样本做处理。如果提供的样本线性不可分,结果很简单,线性分类器的求解程序会无限循环,永远也解不出来。这必然使得它的适用范围大大缩小,而它的很多优点我们实在不原意放弃,怎么办呢?是否有某种方法,让线性不可分的数据变得线性可分呢? <br />有!其思想说来也简单,来用一个二维平面中的分类问题作例子,你一看就会明白。事先声明,下面

2011-04-11 16:21:00 886

转载 SVM入门(六)线性分类器的求解——问题的转化,直观角度

SVM入门(六)线性分类器的求解——问题的转化,直观角度让我再一次比较完整的重复一下我们要解决的问题:我们有属于两个类别的样本点(并不限定这些点在二维空间中)若干,如图,圆形的样本点定为正样本(连带着,我们可以把正样本所属的类叫做正类),方形的点定为负例。我们想求得这样一个线性函数(在n维空间中的线性函数): g(x)=wx+b 使得所有属于正类的点x+代入以后有g(x+)≥1,而所有属于负类的点x-代入后有g(x-)≤-1(之所以总跟1比较,无论正一还是负一,都是因为我们固定了间隔为1,注意间隔和几何间隔

2011-04-11 11:04:00 438

转载 SVM入门(五)线性分类器的求解——问题的描述Part2

<br />SVM入门(五)线性分类器的求解——问题的描述Part2<br />从最一般的定义上说,一个求最小值的问题就是一个优化问题(也叫寻优问题,更文绉绉的叫法是规划——Programming),它同样由两部分组成,目标函数和约束条件,可以用下面的式子表示: <br />(式1) <br /> <br />约束条件用函数c来表示,就是constrain的意思啦。你可以看出一共有p+q个约束条件,其中p个是不等式约束,q个等式约束。 <br />关于这个式子可以这样来理解:式中的x是自变量,但不限定它的维

2011-04-11 10:04:00 440 1

转载 SVM入门(四)线性分类器的求解——问题的描述Part1

<br />SVM入门(四)线性分类器的求解——问题的描述Part1<br />上节说到我们有了一个线性分类函数,也有了判断解优劣的标准——即有了优化的目标,这个目标就是最大化几何间隔,但是看过一些关于SVM的论文的人一定记得什么优化的目标是要最小化||w||这样的说法,这是怎么回事呢?回头再看看我们对间隔和几何间隔的定义: <br />间隔:δ=y(wx+b)=|g(x)| <br />几何间隔: <br />可以看出δ=||w||δ几何。注意到几何间隔与||w||是成反比的,因此最大化几何间隔与最小化|

2011-04-11 01:11:00 417

转载 SVM入门(三)线性分类器Part 2

<br />SVM入门(三)<br />线性分类器Part 2<br />上回说到对于文本分类这样的不适定问题(有一个以上解的问题称为不适定问题),需要有一个指标来衡量解决方案(即我们通过训练建立的分类模型)的好坏,而分类间隔是一个比较好的指标。 <br />在进行文本分类的时候,我们可以让计算机这样来看待我们提供给它的训练样本,每一个样本由一个向量(就是那些文本特征所组成的向量)和一个标记(标示出这个样本属于哪个类别)组成。如下: <br />Di=(xi,yi) xi就是文本向量(维数很高),yi就是分

2011-04-11 00:40:00 422

转载 SVM入门(二)

<br />SVM入门(二)<br />线性分类器<br />Part 1线性分类器(一定意义上,也可以叫做感知机) 是最简单也很有效的分类器形式.在一个线性分类器中,可以看到SVM形成的思路,并接触很多SVM的核心概念. <br />用一个二维空间里仅有两类样本的分类问题来举个小例子。如图所示 <br /><br /><br /><br />­C1和C2是要区分的两个类别,在二维平面中它们的样本如上图所示。中间的直线就是一个分类函数,它可以将两类样本完全分开。一般的,如果一个线性函数能够将样本完全正确的分

2011-04-10 23:54:00 581

转载 支持向量机学习 第一天

<br />Vapnik是统计机器学习的大牛,这想必都不用说,他出版的《Statistical Learning Theory》是一本完整阐述统计机器学习思想的名著。在该书中详细的论证了统计机器学习之所以区别于传统机器学习的本质,就在于统计机器学习能够精确的给出学习效果,能够解答需要的样本数等等一系列问题。与统计机器学习的精密思维相比,传统的机器学习基本上属于摸着石头过河,用传统的机器学习方法构造分类系统完全成了一种技巧,一个人做的结果可能很好,另一个人差不多的方法做出来却很差,缺乏指导和原则。 <br /

2011-04-10 23:30:00 604

原创 我要开始做笔记

最近一直在看支持向量机方面的知识,可是都是比较零散的资料,有的有很多的重复,心态也比较浮躁,所以感觉懂了的东西突然有发现只是一知半解。从今天的这一刻起,我要静下心来用心看,用心体会,争取在一个星期的时间把基本知识掌握,然后就是我的设计。加油!

2011-04-10 21:11:00 422

原创 p2p 识别

现在弄P2P流量识别弄的我头痛啊,如果有人能共同前进就好了,希望有做这方面的朋友一起研究

2010-05-24 09:32:00 505

HURST指数计算,进行有关方面的预测

可以用来计算股票HURST指数,或者流量的HURST指数,研究和预测

2011-03-25

100个常考C程序 招聘

这里有50个C程序,可以看看学习学习,特别是准备找工作的人

2010-11-21

数据结构1800题答案

数据结构1800题的答案,大家参考参考,学习学习

2010-10-03

ipt_IPP2P.C_0.8.2

学习如何识别P2P流量的好程序,可以自己编写控制,拦截P2P流量

2010-05-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除