机器学习
文章平均质量分 74
Vincent乐
计算机视觉、机器学习、深度学习
展开
-
结合Scikit-learn介绍几种常用的特征选择方法
特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常不管三七二十一,选择一种自转载 2015-11-24 13:31:46 · 2212 阅读 · 1 评论 -
Stanford Machine Learning: (5). Support Vector Machines(SVM支持向量机)
Support Vector Machine (SVM) - Optimization objectiveSo far, we've seen a range of different algorithmsWith supervised learning algorithms - performance is pretty similarWhat matters more原创 2014-07-29 14:22:50 · 2540 阅读 · 0 评论 -
Stanford Machine Learning: (1). Linear Regression
Linear regression with multiple featuresNew version of linear regression with multiple featuresMultiple variables = multiple featuresIn original version we hadX = house size, use this to原创 2014-07-29 13:05:14 · 1784 阅读 · 0 评论 -
关于SVM的一些理解
机器学习(Machine Learning, ML)的目的是根据给定的训练样本求对某系统输入输出之间依赖关系的估计,使它(这种关系)能够对未知输出做出尽可能准确地预测。机器学习至今没有一个精确的公认的定义。作为人工智能(Artificial Intelligence, AI)的一个重要研究领域,ML的研究工作主要围绕学习机理、学习方法和面向任务这三个基本方面进行研究。模式识别、函数逼近和概率密度估转载 2014-07-29 14:57:25 · 10731 阅读 · 0 评论 -
Stanford Machine Learning: (7). Clustering
Unsupervised learning - introductionTalk about clusteringLearning from unlabeled dataUnsupervised learningUseful to contras with supervised learningCompare and contrastSupervised l原创 2014-07-29 14:44:04 · 2013 阅读 · 0 评论 -
Stanford Machine Learning: (6).Large Scale Machine Learning
Learning with large datasetsThis set of notes look at large scale machine learning - how do we deal with big datasets?If you look back at 5-10 year history of machine learning, ML is much better n原创 2014-07-29 14:32:52 · 1305 阅读 · 0 评论 -
Stanford Machine Learning: (4). Advice for applying Machine Learning
Deciding what to try nextWe now know many techniquesBut, there is a big difference between someone who knows an algorithm vs. someone less familiar and doesn't understand how to apply themMake原创 2014-07-29 13:55:34 · 1635 阅读 · 0 评论 -
隐马尔可夫模型(HMM)攻略
隐马尔可夫模型 (Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中,随后在语言识别,自然语言处理以及生物信息等领域体现了很大的价值。平时,经常能接触到涉及 HMM 的相关文章,一直没有仔细研究过,都是蜻蜓点水,因此,想花一点时间梳理下,加深理解,在此特别感谢 52nlp 对 HMM 的详细介绍。 考虑下面交通灯的转载 2013-05-02 13:07:02 · 2396 阅读 · 0 评论 -
基于稀疏表示的人脸识别 (SRC,LASRC,RASL,MRR)
1. 问题背景 信号的稀疏表示并不是新的东西。我们很早就一直在利用这一特性。例如,最简单的JPEG图像压缩算法。原始的图像信号经过DCT变换之后,只有极少数元素是非零的,而大部分元素都等于零或者说接近于零。这就是信号的稀疏性。 任何模型都有建模的假设条件。压缩感知,正是利用的信号的稀疏性这个假设。对于我们处理的信号,时域上本身就具有稀疏性的原创 2014-06-19 17:52:17 · 6748 阅读 · 3 评论 -
AdaBoost 算法解析
一 Boosting 算法的起源boost 算法系列的起源来自于PAC Learnability(PAC 可学习性)。这套理论主要研究的是什么时候一个问题是可被学习的,当然也会探讨针对可学习的问题的具体的学习算法。这套理论是由Valiant提出来的,也因此(还有其他贡献哈)他获得了2010年的图灵奖。这里也贴出Valiant的头像,表示下俺等菜鸟的膜拜之情。哈哈哈转载 2013-09-06 17:16:41 · 11882 阅读 · 0 评论 -
Stanford Machine Learning: (3). Regularization
The problem of overfittingSo far we've seen a few algorithms - work well for many applications, but can suffer from the problem of overfittingWhat is overfitting?What is regularization and how d原创 2014-07-29 13:48:46 · 1928 阅读 · 0 评论 -
机器学习/数据挖掘, Python 书籍推荐
1. 适合入门的读物:《深入浅出数据分析》这书挺简单的,基本的内容都涉及了,说得也比较清楚,最后谈到了R是大加分。难易程度:非常易。《啤酒与尿布》通过案例来说事情,而且是最经典的例子。难易程度:非常易。《数据之美》一本介绍性的书籍,每章都解决一个具体的问题,甚至还有代码,对理解数据分析的应用领域和做法非常有帮助。难易程度:易。《数学之美》这本书非常棒啦,入门读起来很原创 2015-04-16 17:32:15 · 10920 阅读 · 5 评论 -
常用机器学习算法 总结
前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大。 纵观IT行业的招聘岗位,机器学习之类的岗位还是挺转载 2014-06-19 17:54:22 · 7211 阅读 · 1 评论 -
K-SVD与On-line dictionary learning
字典学习通常采用两种方法,原创 2014-06-01 16:38:16 · 5628 阅读 · 3 评论 -
生成模型 与 判别模型
判别式模型与生成式模型的区别产生式模型(Generative Model)与判别式模型(Discrimitive Model)是分类器常遇到的概念,它们的区别在于:对于输入x,类别标签y:产生式模型估计它们的联合概率分布P(x,y)判别式模型估计条件概率分布P(y|x)产生式模型可以根据贝叶斯公式得到判别式模型,但反过来不行。判别式模型常见的主要转载 2014-08-28 22:41:34 · 2100 阅读 · 0 评论 -
线性判别分析(LDA)
上一节介绍了PCA算法,PCA的目标是希望降维后的数据能够保持最多的信息,而Discriminant Analysis所追求的目标与PCA不同,它希望数据在降维后能够很容易地被区分开来。 一. LDA算法概述: 线性判别式分析(Linear Discriminant Analysis, LDA),也叫做Fisher线性判别(Fisher Linear Di原创 2013-10-24 22:18:25 · 24637 阅读 · 0 评论 -
朴素贝叶斯 VS 逻辑回归 区别
1. Logistic Regression 逻辑回归原创 2014-08-29 12:46:42 · 10615 阅读 · 1 评论 -
Clustering算法、EM算法总结
K-means:K-medoids:Gaussian Mixture Model:Spectral Clustering:Hierarchical Clustering:Expectation Maximization:原创 2014-08-29 20:22:37 · 2131 阅读 · 0 评论 -
Stanford Machine Learning: (2). Logistic_Regression
ClassificationWhere y is a discrete valueDevelop the logistic regression algorithm to determine what class a new input should fall intoClassification problemsEmail -> spam/not spam?Onlin原创 2014-07-29 13:38:18 · 1435 阅读 · 0 评论 -
机器学习 最优化算法 总结
1. 牛顿法原创 2014-08-28 13:43:57 · 5599 阅读 · 0 评论 -
准确率(Precisio)、召回率(Recall)、F1-Measure
在做图像检索时,通常会遇到准确率(Precisio)、召回率(Recall),在此记录一下他们的含义我们用P代表Precision,R代表Recall简单来说,Precision指的是检索出来的条目中有多少是准确的,Recall指的是所有准确的条目有多少被检索出来。也可以用下面这张图来解释我们当然希望检索的结果P越高越好,R也越高越好,但事实上这两者在某些情况下是矛原创 2014-03-16 14:57:42 · 2354 阅读 · 0 评论 -
矩阵的范数求导
原创 2014-03-12 11:37:35 · 23470 阅读 · 2 评论 -
CRF代码资源
CRFSharp Linear-chain CRFs (C#, .NET)GCO CRFs with submodular energy functions (C++, Matlab)GRMM General CRFs (Java)CRFall General CRFs (Matlab)Sarawagi's CRF Linear-chain CRFs (Java)HCRF library Hidd原创 2013-11-12 20:25:47 · 8176 阅读 · 0 评论 -
EM算法浅解
机器学习十大算法之一:EM算法。能评得上十大之一,让人听起来觉得挺NB的。什么是NB啊,我们一般说某个人很NB,是因为他能解决一些别人解决不了的问题。神为什么是神,因为神能做很多人做不了的事。那么EM算法能解决什么问题呢?或者说EM算法是因为什么而来到这个世界上,还吸引了那么多世人的目光。 我希望自己能通俗地把它理解或者说明白,但是,EM这个问题感觉真的不太好用通俗的语言去说明转载 2013-10-27 15:52:47 · 11938 阅读 · 0 评论 -
主成分分析(Principal components analysis)
Principal Component Analysis(PCA)是最常用的线性降维方法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中表示,并期望在所投影的维度上数据的方差最大,以此使用较少的数据维度,同时保留住较多的原数据点的特性。 通俗的理解,如果把所有的点都映射到一起,那么几乎所有的信息(如点和点之间的距离关系)都丢失了,而如果映射后方差尽可能的大,原创 2013-10-24 20:47:18 · 15060 阅读 · 0 评论 -
近邻成分分析(NCA)算法
下面介绍一下交叉验证: 交叉验证是一种用来评价一个统计分析的结果是否可以推广到一个独立的数据集上的技术。主要用于预测,即,想要估计一个预测模型的实际应用中的准确度。它是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析, 而其它子集则用来做后续对此分析的确认及验证。 一个交叉验证将样本数据集分成两个互补的子集,一个子集用于训练(分类器或模型)原创 2013-10-24 22:33:23 · 22356 阅读 · 1 评论 -
Kmeans、Kmeans++和KNN算法比较
K-Means介绍 K-means算法是聚类分析中使用最广泛的算法之一。它把n个对象根据他们的属性分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。其聚类过程可以用下图表示: 如图所示,数据样本用圆点表示,每个簇的中心点用叉叉表示。(a)刚开始时是原始数据,杂乱无章,没有label,看起来都一样,都是绿色的原创 2013-10-24 14:29:28 · 39819 阅读 · 4 评论 -
HOG+SVM 自己制作训练样本+训练分类器
最近在做行人检测的项目,其中用到了HOG+SVM,SVM分类器用的是opencv自己提供的,但对于具体应用,该分类器可能并不适用。因此想到制作训练样本,并训练SVM分类器。 步骤如下:1、从原始图片生成样本 对比INRIAPerson\INRIAPerson\Train\pos(原始图片),INRIAPerson\train_64x128_H96\pos(生成原创 2013-09-26 15:38:30 · 18326 阅读 · 2 评论 -
OpenCV训练分类器制作xml文档
我的问题:有了opencv自带的那些xml人脸检测文档,我们就可以用cvLoad()这个函数加载他们,让他们对我们的人脸进行检测,但是,现在生活中的计算机视觉并不远远是检测人脸,还有很多物品需要识别,所以,能不能自己做个xml的检测文档,用它来检测自己需要的东西呢?例如,检测一个可乐瓶!问题解决:首先了解下,目标检测分为三个步骤:1、 样本的创建2、 训练分类器3、 利用训练好转载 2013-09-26 11:20:37 · 12722 阅读 · 0 评论 -
videolectures 100个最受欢迎的机器学习视频
26971 views, 1:00:45, Gaussian Process Basics, David MacKay, 8 comments 7799 views, 3:08:32, Introduction to Machine Learning, Iain Murray 16092 views, 1:28:05, Introduction to Support Vector Ma原创 2013-09-12 14:04:18 · 12242 阅读 · 0 评论 -
Gaussian Processes for Regression
参考:http://www.robots.ox.ac.uk/~mebden/reports/GPtutorial.pdf原创 2013-11-08 20:26:54 · 14284 阅读 · 1 评论 -
opencv SVM核函数模型选择
SVM模型类型枚举enum {C_SVC, NU_SVC, ONE_CLASS,EPSILON_SVR,NU_SVR };C_SVC:C表示惩罚因子,C越大表示对错误分类的惩罚越大NU_SVC:和C_SVC相同。ONE_CLASS:不需要类标号,用于支持向量的密度估计和聚类.EPSILON_SVR:-不敏感损失函数,对样本点来说,存在着一个不为目标函数提供任何损转载 2013-09-26 09:57:08 · 11852 阅读 · 1 评论 -
What are training set, validation set and test set?
这三个名词在机器学习领域的文章中极其常见,但很多人对他们的概念并不是特别清楚,尤其是后两个经常被人混用。Ripley, B.D(1996)在他的经典专著Pattern Recognition and Neural Networks中给出了这三个词的定义。 Training set: A set of examples used for learning, which is to fit t转载 2014-02-24 16:39:03 · 1204 阅读 · 0 评论 -
机器学习中的凸优化问题
凸集的定义为: 其几何意义表示为:如果集合C中任意2个元素连线上的点也在集合C中,则C为凸集。其示意图如下所示: 常见的凸集有: n维实数空间;一些范数约束形式的集合;仿射子空间;凸集的并集;n维半正定矩阵集;这些都可以通过凸集的定义去证明。 凸函数的定义为: 其几何意义表示为函数任意两点连线上的值大于对应自变量处的函数值,示意图如下:原创 2013-10-02 18:39:24 · 23910 阅读 · 3 评论 -
条件随机场(Conditional random fields)
条件随机场(conditional random fields,简称 CRF),是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。1. 随机场 简单地讲,随机场可以看成是一组随机变量的集合(这组随机变量对应同一个样本空间)。当给每一个位置按照某种分布随机赋予一个值之后,其全体就叫做随机场。当然,这些随机变量之间可能有依赖关系,原创 2013-11-09 22:41:12 · 46613 阅读 · 6 评论 -
机器学习、数据挖掘、计算机视觉等领域经典书籍推荐
人工智能、机器学习、模式识别、计算机视觉、数据挖掘、信息检索、自然语言处理等作为计算机科学重要的研究分支,不论是学术界还是工业界,有关这方面的研究都在如火如荼地进行着,学习这些方面的内容有一些经典书籍,现总结如下,方便自己和大家以后学习研究:人工智能:《Artificial Intelligence: A Modern Approach》,第三版,Russell著,权威、经典的人工转载 2013-12-03 19:17:53 · 6099 阅读 · 0 评论 -
libsvm 核函数 交叉验证 参数优化
1.下载及安装libsvm3.1下载:里面包含了libsvm和参数寻优的文件,具体参见readme安装:http://www.matlabsky.com/thread-11925-1-1.html2.参数说明:English:libsvm_options:-s svm_type : set type of SVM (default 0) 0 --原创 2013-11-29 16:53:49 · 25757 阅读 · 4 评论 -
核函数(Kernels)
核函数(Kernels)考虑我们最初在“线性回归”中提出的问题,特征是房子的面积x,这里的x是实数,结果y是房子的价格。假设我们从样本点的分布中看到x和y符合3次曲线,那么我们希望使用x的三次多项式来逼近这些样本点。那么首先需要将特征x扩展到三维,然后寻找特征和结果之间的模型。我们将这种特征变换称作特征映射(feature mapping)。映射函数称作,在这个例子中我转载 2013-11-03 21:06:11 · 15335 阅读 · 0 评论 -
Libsvm和Liblinear的比较
Libsvm和Liblinear都是国立台湾大学的Chih-Jen Lin博士开发的,Libsvm主要是用来进行非线性svm 分类器的生成,提出有一段时间了,而Liblinear则是去年才创建的,主要是应对large-scale的data classification,因为linear分类器的训练比非线性分类器的训练计算复杂度要低很多,时间也少很多,而且在large scale data上的性转载 2013-12-02 19:54:58 · 8502 阅读 · 0 评论 -
在线学习(Online Learning)
原题目叫做The perception and large margin classifiers,其实探讨的是在线学习。这里将题目换了换。以前讨论的都是批量学习(batch learning),就是给了一堆样例后,在样例上学习出假设函数h。而在线学习就是要根据新来的样例,边学习,边给出结果。 假设样例按照到来的先后顺序依次定义为。X为样本特征,y为类别标签。我们的任务是到来一个样转载 2013-10-27 15:55:34 · 12269 阅读 · 0 评论