- 博客(21)
- 资源 (8)
- 收藏
- 关注
翻译 徐海蛟:向量X的归一化及其Matlab简单示例
徐海蛟博士归一化是要把需要处理的数据经过处理后限制在一定范围内,例如:[-1,1]或[0,1]。归一化是为了后续数据处理的方便,也使得算法程序收敛加快。在Matlab里面,归一化的方法共有3种:(1)mapminmax % 范围映射(2)mapstd % 均值与偏差(3)自定义函数在数据预处理过程中,对数据集按行或者按列(统一记为向量X)进行L1或者L2范数
2013-10-20 15:00:54 5408
转载 svm理论与实验之22: 自定义核函数在Matlab平台上的使用
徐海蛟博士 Teaching.1984年,莫勒尔和班格尔特合作成立了MathWorks公司,正式把MATLAB推向市场。MATLAB(矩阵实验室)是MATrix LABoratory的缩写,是一款由美国The MathWorks公司出品的商业数学软件。MATLAB是一种用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境。除了矩阵运算、绘制函数/数据
2013-10-17 17:03:49 3607 2
翻译 svm理论与实验之21: 自定义核函数的使用
徐海蛟博士真实场景下,数据的特征可能比较复杂,系统提供的4种核函数或许达不到最佳效果,那么就需要自定义核函数了。当然,有很多大牛干这个事情,我们可以拿来使用,通过自定义核方式。如何用?这时候不再把训练与测试数据文件作为输入参数了,而是使用核矩阵作为输入参数。Assume there are L training instances x1, ..., xL .
2013-10-16 20:56:04 1804
原创 svm理论与实验之20: libsvm多标签实验与评价指标
徐海蛟博士 Teaching.数据集如下:名称 源类型 类数 训练样本 测试样本 特征数----------------------------------------------------------------scene景色 MB04a 多标签6 1,211 1,196 294yeast酵母 AE02a 多标签14 1,500 917
2013-10-15 17:49:22 1932
原创 svm理论与实验之19: libsvm多类实验
徐海蛟博士 Teaching.我们实验环境:libsvm 3.17, python 2.7.3, gnuplot 4.6。数据集从小到大: dna 生物dna, satimage 卫星图像, letter 字母。数据已经下载到了svm-数据/下。我们看下数据集基本情况:名称 源类型 类数 训练样本 测试样本 特征数--------------------
2013-10-15 10:40:48 1406
转载 svm理论与实验之18: libsvm自动参数选择
徐海蛟博士 Teaching.libsvm可用grid.py(grid的意思是:网格)这个网格搜索python程序帮我们自动完成参数选择。这里,给童鞋们上课说说交叉验证与网格搜索。1. 交叉验证交叉验证是一种评估统计分析、机器学习算法对独立于训练数据的数据集的泛化能力,能够避免过拟合问题。交叉验证一般要尽量满足: 1)训练集的比例要足够多,一般大于一半(>50%)
2013-10-14 16:44:02 1817
翻译 svm理论与实验之17: libsvm最简单Java示例(2行)
徐海蛟博士 Teaching.怎么用dos命令行使用svm-scale,svm-train,svm-predict三个程序,我们在前面博文中已经练习过了。这里给出用JAVA调用LibSVM API最简单的示例,用JAVA进行SVM分类只需要2行程序就搞定了。训练集在官网有了,是UCI breast-cancer数据,乳腺癌数据,类数:2,总样本:683,我们把前面644个样
2013-10-14 11:31:54 1758
转载 svm理论与实验之13: libsvm库函数说明
徐海蛟博士 Teaching.徐海蛟老师教学学习的libsvm版本是3.17最新版。1. libSVM的数据格式Label 1:value 2:value … …Label:是类别的标识,比如上节train.model中提到的1 -1,你可以自己随意定,比如-10,0,15。当然,如果是回归,这是目标值,就要实事求是了。Value:就是要训练的
2013-10-12 11:27:57 1177
转载 svm理论与实验之12: Hello World
徐海蛟博士 Teaching.我教学学习的libsvm版本是3.17最新版。应用3.17最新版自带的训练集heart_scale来完成第一个实验,该训练集样本数:270,特征数:13。童鞋们跟我一起玩。1. 把LibSVM包解压到相应的目录,比如 D:/lab/libsvm/。2. 在电脑“开始”的“运行”中输入cmd,进入DOS命令提示符环境。定位到d:/la
2013-10-12 10:19:18 865
转载 svm理论与实验之11:svm开发工具包LibSVM
svm理论与实验之11:svm开发工具包LibSVM徐海蛟博士 Teaching.光说不练,很难真正理解svm的妙处,也难以真正实用。所以,有必要跟着徐海蛟老师一起练习svm。svm理论和工具已经很成熟了。童鞋们并不需要手写每一行代码。一个非常好用的开发工具包是LibSVM,支持C++、Java、Matlab语言。libSVM只是众多SVM实现版本中的其中之一。LibS
2013-10-11 21:54:26 1831
转载 svm理论与实验之10: SVM多类分类
徐海蛟博士 Teaching.从 SVM的那几张图可以看出来,SVM是一种典型的两类分类器,即它只回答属于正类还是负类的问题。而现实中要解决的问题,往往是多类的问题(少部分例外,例如垃圾邮件过滤,就只需要确定“是”还是“不是”垃圾邮件),比如文本分类,比如数字识别。如何由两类分类器得到多类分类器,就是一个值得研究的问题。 还以文本分类为例,现成的方法有很多,其中一种一劳永
2013-10-11 16:46:39 1609
转载 svm理论与实验之9:惩罚因子C
svm理论与实验之9:惩罚因子C徐海蛟博士 Teaching.回想一下C所起的作用(表征你有多么重视离群点,C越大越重视,越不想丢掉它们)。这个式子是以前做SVM的人写的,大家也就这么用,但没有任何规定说必须对所有的松弛变量都使用同一个惩罚因子,我们完全可以给每一个离群点都使用不同的C,这时就意味着你对每个样本的重视程度都不一样,有些样本丢了也就丢了,错了也就错了,这些就给一个比较
2013-10-11 16:12:43 2889
转载 svm理论与实验之8:松弛变量
徐海蛟博士 Teaching.现在我们已经把一个本来线性不可分的文本分类问题,通过映射到高维空间而变成了线性可分的。就像下图这样: 圆形和方形的点各有成千上万个(毕竟,这就是我们训练集中文档的数量嘛,当然很大了)。现在想象我们有另一个训练集,只比原先这个训练集多了一篇文章,映射到高维空间以后(当然,也使用了相同的核函数),也就多了一个样本点,但是这个样本的位置是这
2013-10-11 15:42:21 981
转载 svm理论与实验之7: 核函数
徐海蛟博士 Teaching. 之前一直在讨论的线性分类器,器如其名(汗,这是什么说法啊),只能对线性可分的样本做处理。如果提供的样本线性不可分,结果很简单,线性分类器的求解程序会无限循环,永远也解不出来。这必然使得它的适用范围大大缩小,而它的很多优点我们实在不原意放弃,怎么办呢?是否有某种方法,让线性不可分的数据变得线性可分呢? 有!其思想说来也简单,来用一个二维平面
2013-10-10 16:26:59 943
转载 svm理论与实验之6: 线性分类器的求解(续集) — 问题的转化
徐海蛟博士 Teaching. 让我再一次比较完整的重复一下我们要解决的问题:我们有属于两个类别的样本点(并不限定这些点在二维空间中)若干, 圆形的样本点定为正样本(连带着,我们可以把正样本所属的类叫做正类),方形的点定为负例。我们想求得这样一个线性函数(在n维空间中的线性函数): g(x)=wx+b 使得所有属于正类的点x+代入以后有g(x+
2013-10-10 16:03:36 659
转载 svm理论与实验之5: 线性分类器的求解
徐海蛟博士 Teaching.一个求最小值的问题就是一个优化问题(也叫寻优问题,更文绉绉的叫法是规划——Programming),它同样由两部分组成,目标函数和约束条件,可以用下面的式子表示: (式1) 约束条件用函数c来表示,就是constrain的意思啦。你可以看出一共有p+q个约束条件,其中p个是不等式约束,q个等式约束。 关于这个式子可
2013-10-10 12:23:48 1110
转载 svm理论与实验之4 — 问题的描述
徐海蛟博士 Teaching.上节说到我们有了一个线性分类函数,也有了判断解优劣的标准——即有了优化的目标,这个目标就是最大化几何间隔,但是看过一些关于SVM的论文的人一定记得什么优化的目标是要最小化||w||这样的说法,这是怎么回事呢?回头再看看我们对间隔和几何间隔的定义: 间隔:δ=y(wx+b)=|g(x)| 几何间隔: 可以看出δ=||
2013-10-10 12:01:49 834
转载 svm理论与实验之3: 线性分类器(续集)
徐海蛟博士 Teaching对于文本分类这样的不适定问题(有一个以上解的问题称为不适定问题),需要有一个指标来衡量解决方案(即我们通过训练建立的分类模型)的好坏,而分类间隔是一个比较好的指标。 在进行文本分类的时候,我们可以让计算机这样来看待我们提供给它的训练样本,每一个样本由一个向量(就是那些文本特征所组成的向量)和一个标记(标示出这个样本属于哪个类别)组成。如下:
2013-10-09 21:57:07 1075
转载 svm理论与实验之2: 线性分类器
徐海蛟博士 Teaching线性分类器(一定意义上,也可以叫做感知机) 是最简单也很有效的分类器形式.在一个线性分类器中,可以看到SVM形成的思路,并接触很多SVM的核心概念. 用一个二维空间里仅有两类样本的分类问题来举个小例子。如图所示 C1和C2是要区分的两个类别,在二维平面中它们的样本如上图所示。中间的直线
2013-10-09 20:34:47 1154
转载 大数据实验数据集何处来?
徐海蛟博士 Teaching海量数据(又称大数据)已经成为各大互联网企业面临的最大问题,如何处理海量数据,提供更好的解决方案,是目前相当热门的一个话题。类似MapReduce、 Hadoop等架构的普遍推广,大家都在构建自己的大数据处理,大数据分析平台。相应之下,目前对于海量数据处理人才的需求也在不断增多,此类人才可谓炙手可热!越来越多的开发者把目光转移到海量数据的处理上。
2013-10-09 11:34:22 2419
转载 徐海蛟:svm理论与实验之1
徐海蛟博士 Teaching.支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,
2013-10-05 12:04:41 1080
java api7.0最新伪中文chm
2013-10-26
hadoop 1.2.1 api 最新chm 伪中文版
2013-10-25
gnuplot 4.6 绘图软件2013最新版New
2013-10-12
Python 2.7
2013-10-12
iPhone开发教程2013New!(下集11-完)
2013-09-28
2013大数据与数据智能时代
2013-09-28
大数据时代的三大发展趋势及投资方向
2013-09-28
云计算与大数据入门
2013-09-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人