机器学习基础
文章平均质量分 65
ZhikangFu
这个作者很懒,什么都没留下…
展开
-
PCA降维算法总结以及matlab实现PCA(个人的一点理解)
http://blog.csdn.net/watkinsong/article/details/8234766PCA的一些基本资料最近因为最人脸表情识别,提取的gabor特征太多了,所以需要用PCA进行对提取的特征进行降维。本来最早的时候我没有打算对提取的gabor特征进行降维,但是如果一个图像时64*64,那么使用五个尺度八个方向的gabor滤波器进行滤波转载 2015-06-03 11:29:12 · 1455 阅读 · 0 评论 -
利用Hog特征和SVM分类器进行行人检测
之前介绍过Hog特征(http://blog.csdn.net/carson2005/article/details/7782726),也介绍过SVM分类器(http://blog.csdn.net/carson2005/article/details/6453502 );而本文的目的在于介绍利用Hog特征和SVM分类器来进行行人检测。 在2005年CVPR上,来自法国的研究转载 2015-11-19 19:41:02 · 830 阅读 · 0 评论 -
LibLinear(SVM包)使用说明之(一)README
转载http://blog.csdn.net/zouxy09/article/details/10947323/LibLinear(SVM包)使用说明之(一)READMEzouxy09@qq.comhttp://blog.csdn.net/zouxy09 本文主要是翻译liblinear-1.93版本的README文件。里面介绍了liblin转载 2015-12-25 13:56:18 · 499 阅读 · 0 评论 -
Hinge loss
文/Not_GOD(简书作者)原文链接:http://www.jianshu.com/p/4a40f90f0d98著作权归作者所有,转载请联系作者获得授权,并标注“简书作者”。The Hinge Loss 定义为 E(z) = max(0,1-z),在图中是蓝色的线所表示的那个,the Log Loss 为红色的线所表示,而 the Square Loss 是绿色 the misc原创 2016-03-14 11:26:32 · 4910 阅读 · 0 评论 -
常见的防止过拟合的方法
正则化方法:防止过拟合,提高泛化能力在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合)。其直观的表现如下图所示,随着训练过程,网络在training data上的error渐渐减小,但是在验证集上的error却反而渐渐增大——因为训练出来的网络过拟合了训练集,对训练集外的数据却不work。为了防止overfitting,可以用的方法有很多,下转载 2016-03-14 11:44:49 · 7126 阅读 · 0 评论 -
svm与logistic regression的区别
两种方法都是常见的分类算法,从目标函数来看,区别在于逻辑回归采用的是logistical loss,svm采用的是hinge loss.这两个损失函数的目的都是增加对分类影响较大的数据点的权重,减少与分类关系较小的数据点的权重.SVM的处理方法是只考虑support vectors,也就是和分类最相关的少数点,去学习分类器.而逻辑回归通过非线性映射,大大减小了离分类平面较远的点的权重,相对提升了与翻译 2016-03-14 11:51:19 · 2675 阅读 · 0 评论 -
SIFT 特征原理与理解
SIFT(Scale-invariant feature transform)是一种检测局部特征的算法,该算法通过求一幅图中的特征点(interest points,or corner points)及其有关scale 和 orientation 的描述子得到特征并进行图像特征点匹配,获得了良好效果,详细解析如下:算法描述SIFT特征不只具有尺度不变性,即使改变旋转角度转载 2016-04-26 18:11:48 · 6483 阅读 · 1 评论 -
LBP特征
LBP(Local Binary Pattern,局部二值模式)是一种用来描述图像局部纹理特征的算子;它具有旋转不变性和灰度不变性等显著的优点。它是首先由T. Ojala, M.Pietikäinen, 和D. Harwood 在1994年提出,用于纹理特征提取。而且,提取的特征是图像的局部的纹理特征; 1、LBP特征的描述 原始的LBP算子定义为在3*3的转载 2016-04-26 18:15:38 · 989 阅读 · 0 评论 -
HOG特征
1、HOG特征: 方向梯度直方图(Histogram of Oriented Gradient, HOG)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。Hog特征结合SVM分类器已经被广泛应用于图像识别中,尤其在行人检测中获得了极大的成功。需要提醒的是,HOG+SVM进行行人检测的方法是法国研究人员Dal转载 2016-04-26 18:22:19 · 556 阅读 · 0 评论 -
KMeans笔记 K值以及初始类簇中心点的选取
本文主要基于Anand Rajaraman和Jeffrey David Ullman合著,王斌翻译的《大数据-互联网大规模数据挖掘与分布式处理》一书。 KMeans算法是最常用的聚类算法,主要思想是:在给定K值和K个初始类簇中心点的情况下,把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中,所有点分配完毕之后,根据一个类簇内的所有点重新计算该类簇的中心点(取平均值),然后再迭原创 2015-09-14 10:45:38 · 7269 阅读 · 2 评论 -
Logistic Regression的理解
一:为什么要引入Logistic Regression?从linear Regression说起,假设 特征 和 结果 都满足线性。即不大于一次方。这个是针对 收集的数据而言。收集的数据中,每一个分量,就可以看做一个特征数据。每个特征至少对应一个未知的参数。这样就形成了一个线性模型函数,向量表示形式:求解(具体求解方式不讲了)可以得到一个线性函数,这个线性函原创 2016-05-02 10:29:30 · 2247 阅读 · 0 评论 -
Logistic Regression 损失函数理解
今天面试管问我,Logistic Regression 损失函数的意义是啥,所以上网总结一下。首先:Logistic Regression损失函数的由来。也就是要明白损失函数是用来干啥的?用来求参数的啊!!!!!!Logistic Regression采用最大似然的方法求参数。Logistic Regression函数为:原创 2016-05-04 15:53:27 · 10268 阅读 · 0 评论 -
深入理解拉格朗日乘子法(Lagrange Multiplier) 和KKT条件
在求取有约束条件的优化问题时,拉格朗日乘子法(Lagrange Multiplier) 和KKT条件是非常重要的两个求取方法,对于等式约束的优化问题,可以应用拉格朗日乘子法去求取最优值;如果含有不等式约束,可以应用KKT条件去求取。当然,这两个方法求得的结果只是必要条件,只有当是凸函数的情况下,才能保证是充分必要条件。KKT条件是拉格朗日乘子法的泛化。之前学习的时候,只知道直接应用两个方法,但是却翻译 2016-05-08 10:08:25 · 1081 阅读 · 0 评论 -
最小二乘法推到过程
原创 2016-10-07 13:47:09 · 2020 阅读 · 0 评论 -
详解 ROI Align 的基本原理和实现细节
转自 http://blog.leanote.com/post/afanti.deng@gmail.com/b5f4f526490bROI Align 是在Mask-RCNN这篇论文里提出的一种区域特征聚集方式, 很好地解决了ROI Pooling操作中两次量化造成的区域不匹配(mis-alignment)的问题。实验显示,在检测测任务中将 ROI Pooling 替换为 ROI Align 可以...转载 2018-07-11 16:59:13 · 510 阅读 · 0 评论 -
对线性回归、逻辑回归、各种回归的概念学习
回归问题的条件/前提:1) 收集的数据2) 假设的模型,即一个函数,这个函数里含有未知的参数,通过学习,可以估计出参数。然后利用这个模型去预测/分类新的数据。1. 线性回归假设 特征 和 结果 都满足线性。即不大于一次方。这个是针对 收集的数据而言。收集的数据中,每一个分量,就可以看做一个特征数据。每个特征至少对应一个未知的参数。这样就形成了一个线性转载 2015-10-12 11:14:23 · 600 阅读 · 0 评论 -
SIFT特征提取分析
SIFT算法的实质是在不同的尺度空间上查找关键点(特征点)。SIFT所查找到的关键点是一些十分突出,不会因光照,仿射变换和噪音等因素而变化的点,如角点、边缘点、暗区的亮点及亮区的暗点等。每个关键点有三个信息:位置,所处尺度、方向,由此可以确定一个SIFT特征区域。SIFT(Scale-invariant feature transform)是一种检测局部特征的算法,该算法通过求一幅图中原创 2015-06-29 12:51:59 · 690 阅读 · 0 评论 -
K最邻近算法和局部敏感哈希LSH
1. K最近邻(k-Nearest Neighbor)分类算法采用测量不同特征值之间的距离方法进行分类。K近邻分类算法的主要思想:如果一个样本在特征空间中的k个最相似)的样本中的大多数属于某一个类别,则该样本也属于这个类别(这里对于最相似的判定主要是通过特征值向量的距离)1.1. 算法特点及伪代码KNN算法中,所选择的邻居都是已经正确分类的对象(训练集)KNN方原创 2015-06-29 16:31:26 · 2036 阅读 · 0 评论 -
机器学习 --- 1. 线性回归与分类, 解决与区别
机器学习可以解决很多问题,其中最为重要的两个是 回归与分类。 这两个问题怎么解决, 它们之间又有什么区别呢? 以下举几个简单的例子,以给大家一个概念1. 线性回归回归分析常用于分析两个变量X和Y 之间的关系。 比如 X=房子大小 和 Y=房价 之间的关系, X=(公园人流量,公园门票票价) 与 Y=(公园收入) 之间的关系等等。那么你的数据点在图上可以这么看转载 2015-06-11 11:16:42 · 615 阅读 · 0 评论 -
CART分类算法
统计学习方法是一本好书,可惜例子太少。找到一个好的CART算法的例子谢谢原文作者了http://www.cnblogs.com/zhangchaoyang 作者:Orisun分类回归树(CART,Classification And Regression Tree)也属于一种决策树,上回文我们介绍了基于ID3算法的决策树。作为上篇,这里只介绍CART是怎样用于转载 2015-07-13 10:41:04 · 1462 阅读 · 0 评论 -
AdaBoost中利用Haar特征进行人脸识别算法分析与总结1——Haar特征与积分图
http://blog.csdn.net/watkinsong/article/details/7631241目前因为做人脸识别的一个小项目,用到了AdaBoost的人脸识别算法,因为在网上找到的所有的AdaBoost的简介都不是很清楚,让我看看头脑发昏,所以在这里打算花费比较长的时间做一个关于AdaBoost算法的详细总结。希望能对以后用AdaBoost的同学有所帮助。而且给出了关于转载 2015-07-06 20:10:09 · 766 阅读 · 0 评论 -
1.随机森林原理介绍
随机森林,指的是利用多棵树对样本进行训练并预测的一种分类器。该分类器最早由Leo Breiman和Adele Cutler提出,并被注册成了商标。简单来说,随机森林就是由多棵CART(Classification And Regression Tree)构成的。对于每棵树,它们使用的训练集是从总的训练集中有放回采样出来的,这意味着,总的训练集中的有些样本可能多次出现在一棵树的训练集中,也可能从未出转载 2015-07-14 12:46:04 · 1227 阅读 · 0 评论 -
特征选择方法之信息增益
前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越应该被保留。在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带转载 2015-07-20 09:42:02 · 729 阅读 · 0 评论 -
机器学习10大经典算法
机器学习10大经典算法机器学习10大经典算法1、C4.5C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: 1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足; 2)在树构造过程中进行剪枝; 3)能够完成对连续属性的离散转载 2015-07-20 11:19:33 · 500 阅读 · 0 评论 -
kd树
Kd-树是K-dimension tree的缩写,是对数据点在k维空间(如二维(x,y),三维(x,y,z),k维(x1,y,z..))中划分的一种数据结构,主要应用于多维空间关键数据的搜索(如:范围搜索和最近邻搜索)。本质上说,Kd-树就是一种平衡二叉树。 首先必须搞清楚的是,k-d树是一种空间划分树,说白了,就是把整个空间划分为特定的几个部分,然后在特定空间的部分内进行相关搜索操原创 2015-08-12 19:42:43 · 775 阅读 · 0 评论 -
什么是汉明窗?加Hanmming窗的作用?
matlab中hamming()函数的作用是:This MATLAB function returns an L-point symmetric Hamming window in the column vector w 返回一个L点的对称海明窗列向量w什么是汉明窗?加Hanmming窗的作用?1.什么是汉明窗?答:我是做语音识别的,我就从语音的角度跟你说一下吧转载 2015-08-14 11:14:10 · 12989 阅读 · 0 评论 -
深入浅出的讲解傅里叶变换
一、嘛叫频域 从我们出生,我们看到的世界都以时间贯穿,股票的走势、人的身高、汽车的轨迹都会随着时间发生改变。这种以时间作为参照来观察动态世界的方法我们称其为时域分析。而我们也想当然的认为,世间万物都在随着时间不停的改变,并且永远不会静止下来。但如果我告诉你,用另一种方法来观察世界的话,你会发现世界是永恒不变的,你会不会觉得我疯了?我没有疯,这个静止的世界就叫做频域。 先举一个公转载 2015-07-22 17:50:30 · 1791 阅读 · 0 评论 -
时间序列模型
原文地址:时间序列分析中的ARMA,ARIMA,ARCH,GARCH模型整体综述【整理】作者:谢淳Source:http://www.morefund.com/a/duichongshidian/2011/0422/327.html 在时间序列分析中,AR,MA,ARMA,ARIMA,ARCH,GARCH是最常见的模型,他们的区别主要在于适用条件不同,且是层层递进的,后转载 2015-08-21 10:08:22 · 9602 阅读 · 0 评论 -
SVM特点
本文转自牛牛草堂SVM有如下主要几个特点:(1)非线性映射是SVM方法的理论基础,SVM利用内积核函数代替向高维空间的非线性映射;(2)对特征空间划分的最优超平面是SVM的目标,最大化分类边际的思想是SVM方法的核心;(3)支持向量是SVM的训练结果,在SVM分类决策中起决定作用的是支持向量。(4)SVM 是一种有坚实理论基础的新颖的小样本学习方法。它基本上不涉及概率测转载 2015-09-15 10:16:02 · 651 阅读 · 0 评论 -
Sobel算子
幻灯片1Sobel算子 幻灯片2一、Sobel边缘检测算子l 在讨论边缘算子之前,首先给出一些术语的定义:l (1)边缘:灰度或结构等信息的突变处,边缘是一个区域的结束,也是另一个区域的开始,利用该特征可以分割图像。l (2)边缘点:图像中具有坐标[x,y],且处在强度显著变化的位置上的点。l (3)边缘段:对应于边缘点坐标[x,y]及其方位转载 2015-10-01 10:09:33 · 1085 阅读 · 0 评论 -
机器学习中正则化项L1和L2的直观理解
正则化(Regularization)今天看了一篇文章,感觉还不错。原文:https://blog.csdn.net/jinping_shi/article/details/52433975机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作ℓ1ℓ1-norm和ℓ2ℓ2-norm,中文称作L1正则化和L2正则化,或者L1范数和L2范数。L1正则化和...转载 2018-07-18 11:17:29 · 567 阅读 · 0 评论