![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Machine Learning
文章平均质量分 70
lskyne
这个作者很懒,什么都没留下…
展开
-
动态生成二维数组
开始着手写PCA算法,这是机器学习一个简单的算法。当自己动手写某一种算法时,才发现里面更多的问题,才收获更多。自己的编程能力不是很强,只能从小处做起了,一步一步,踏踏实实。今天晚上写的程序是用来保存样本特征数目和数据数目的问题。#include #include double** newArray(int m,int n){ int i=0; int j=0; doub原创 2012-11-29 23:50:58 · 966 阅读 · 1 评论 -
局部敏感哈希LSH
一、原始LSH1、概述 LSH主要用来解决高维空间中点的近似最近邻搜索问题,即Approximate Nearest Neighbor。LSH将原始空间中的点嵌入到Hamming空间中,即原始空间中点的表达形式转换成Hamming空间中点的表达形式,原始空间中的距离度量转换成Hamming空间中的距离度量。这样,原始空间的e-NNS(定义见下文)问题就转变成Hamming空间转载 2013-03-09 19:36:09 · 8279 阅读 · 0 评论 -
Hamming distance海明距离
In information theory, the Hamming distance between two strings of equal length is the number of positions at which the corresponding symbols are different. Put another way, it measures the mini转载 2013-03-08 22:02:55 · 23452 阅读 · 0 评论 -
基于内容的多媒体和跨媒体信息检索技术
信息检索的基本概念 信息检索(IR - Information Retrieval)泛指从包含丰富内容的信息集中找到所需要的或感兴趣的信息或知识的过程,信息检索的主要任务包括对信息项(information items)的表示(representation)、存储(storage)、组织(organization)和访问(access)。 传统信息检索技术主要是面向文本(text)的,转载 2013-03-07 09:56:40 · 6802 阅读 · 0 评论 -
机器学习之SIFT&SVM
最近我在看一篇通过机器学习来进行动作识别的文章,之前没怎么接触过,所以有大量概念需要弄清楚。BoW:bag of wordsSIFT:Scale-invariant feature transformSIFT算子是DavidGLowe在2004年总结了现有的基于不变量技术的特征检测方法的基础上,提出的一种基于尺度空间的,对图像缩放、旋转甚至仿射变换保持不变性的算子。SIFT特征是图像的转载 2013-01-17 10:00:33 · 3195 阅读 · 0 评论 -
图像处理公共数据库下载地址集锦
做图像处理+模式识别的童鞋怎么可以没有数据库呢? 但是,如果自己做一个数据库,费时费力费钱先不说,关键是建立的数据库的公信力一般不会高,做出的算法也别人也不好比较,所以呢,下载比较权威的公共数据库还是来得方便、直接、有效。 原先我也收藏了一些公共数据库的下载链接,但是由于近期电脑损坏给搞没了,那个后悔那........ 现在专门收集的这些链接一定要保存好,希望在与大家共同分享的同时转载 2013-01-10 13:06:01 · 1985 阅读 · 3 评论 -
BP神经网络的设计实例(MATLAB编程) .
出处:http://blog.csdn.net/sbtdkj1017/article/details/1901663例1 采用动量梯度下降算法训练 BP 网络。训练样本定义如下:输入矢量为 p =[-1 -2 3 1 -1 1 5 -3]目标矢量为 t = [-1 -1 1 1]解:本例的 MATLAB 程序如下: close al转载 2013-01-09 22:38:53 · 4102 阅读 · 0 评论 -
BP神经网络学习一
反向传播网络(BP网络)是将W-H学习规则一般化,对非线性可微分函数进行权值训练的多层网络。BP主要用于:1,函数逼近:用输入矢量和相应的输出矢量训练一个网络逼近一个函数2,模式识别:用一个特定的输出矢量将它与输入矢量联系起来3,分类:把输入矢量以所定义的合适方式进行分类4,数据压缩:减少矢量维数以便于传输或存储在人工神经网络的实际应用中,80%-90%的人工神经网络模型是原创 2013-01-09 21:46:43 · 1179 阅读 · 0 评论 -
GIST特征描述符使用
出处:http://www.cnblogs.com/justany/archive/2012/12/06/2804211.html一种场景特征描述场景特征描述?通常的特征描述符都是对图片的局部特征进行描述的,以这种思路进行场景描述是不可行的。比如:对于“大街上有一些行人”这个场景,我们必须通过局部特征辨认图像是否有大街、行人等对象,再断定这是否是满足该场景。但这个计转载 2013-01-24 14:37:06 · 29401 阅读 · 0 评论 -
图像特征提取总结
特征提取是计算机视觉和图像处理中的一个概念。它指的是使用计算机提取图像信息,决定每个图像的点是否属于一个图像特征。特征提取的结果是把图像上的点分为不同的子集,这些子集往往属于孤立的点、连续的曲线或者连续的区域。 特征的定义 至今为止特征没有万能和精确的定义。特征的精确定义往往由问题或者应用类型决定。特征是一个数字图像中“有趣”的部分,它是许多计算机图像分析算法的起点转载 2013-03-09 22:10:06 · 30496 阅读 · 1 评论 -
纹理特征分析的灰度共生矩阵(GLCM)
纹理分析是对图像灰度(浓淡)空间分布模式的提取和分析。纹理分析在遥感图像、X射线照片、细胞图像判读和处理方面有广泛的应用。关于纹理,还没有一个统一的数学模型。它起源于表征纺织品表面性质的纹理概念,可以用来描述任何物质组成成分的排列情况,例如医学上X 射线照片中的肺纹理、血管纹理、航天(或航空)地形照片中的岩性纹理等。图像处理中的视觉纹理通常理解为某种基本模式(色调基元)的重复排列。因此描述一种纹理转载 2013-03-11 14:22:16 · 79609 阅读 · 3 评论 -
hadoop下kmeans算法实现四
KMapper.javaimport java.io.ByteArrayOutputStream;import java.io.IOException;import java.net.URI;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache原创 2013-01-26 10:08:56 · 6469 阅读 · 9 评论 -
HSI、HSV、RGB、CMY、CMYK、HSL、HSB、Ycc、XYZ、Lab、YUV颜色模型
HSV颜色空间 HSV(hue,saturation,value)颜色空间的模型对应于圆柱坐标系中的一个圆锥形子集,圆锥的顶面对应于V=1. 它包含RGB模型中的R=1,G=1,B=1 三个面,所代表的颜色较亮。色彩H由绕V轴的旋转角给定。红色对应于 角度0° ,绿色对应于角度120°,蓝色对应于角度240°。在HSV颜色模型中,每一种颜色和它的补色相差180° 。 饱和度S取值从0到1,转载 2013-03-21 10:31:14 · 2296 阅读 · 0 评论 -
OpenCV提取图像RGB底层特征
基本思想原创 2013-04-03 15:03:47 · 1906 阅读 · 2 评论 -
整理--决策树算法:ID3和C4.5
ID3是Quinlan提出的一个著名的决策树生成方法。一、ID3的基本概念如下:决策树中每一个非叶结点对应着一个非类别属性,树枝代表这个属性的值。一个叶结点代表从树根到叶结点之间的路径对应的记录所属的类别属性值。每一个非叶结点都将与属性中具有最大信息量的非类别属性相关联。 采用信息增益来选择能够最好地将样本分类的属性。二、信息增益 从信息论知识中我们直到,期望转载 2013-04-01 22:49:41 · 1729 阅读 · 0 评论 -
机器学习的几种相似性度量方法
在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。 本文目录:1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5. 标准化欧氏距离转载 2013-04-01 20:52:44 · 2574 阅读 · 0 评论 -
标注偏置问题(Label Bias Problem)和HMM、MEMM、CRF模型比较
出处:http://blog.csdn.net/zhoubl668/article/details/7787690路径1-1-1-1的概率:0.4*0.45*0.5=0.09路径2-2-2-2的概率:0.018路径1-2-1-2:0.06路径1-1-2-2:0.066由此可得最优路径为1-1-1-1而实际上,在上图中,状态1偏向于转移到状转载 2013-03-13 16:55:47 · 16391 阅读 · 2 评论 -
隐马尔可夫模型(HMM)攻略
隐马尔可夫模型 (Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中,随后在语言识别,自然语言处理以及生物信息等领域体现了很大的价值。平时,经常能接触到涉及 HMM 的相关文章,一直没有仔细研究过,都是蜻蜓点水,因此,想花一点时间梳理下,加深理解,在此特别感谢 52nlp 对 HMM 的详细介绍。 考虑下面交通灯的例子转载 2013-03-13 19:48:06 · 2542 阅读 · 0 评论 -
概率图模型之有向图与无向图
出处:http://blog.sina.com.cn/s/blog_4dfdfdc30100r1cn.html概率图模型之有向图与无向图图模型用图结构描述随机变量之间的依赖关系,结点表示随机变量,边表示随机变量之间的依赖关系,可以是有向图和无向图。一 无向图模型无向图模型又叫马尔可夫网络、马尔可夫随机场,是关于一组有马尔可夫性质随机变量X的全联合概率分布模型。1 无向图模型的表转载 2013-03-13 19:34:10 · 4426 阅读 · 0 评论 -
Adaboost原理、应用
Adaboost是一种迭代算法,其核心 思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分 布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进 行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器转载 2012-12-24 16:06:42 · 6559 阅读 · 0 评论 -
分类与回归的关系
分类图1线性可分的两类问题 从数学的角度看分类问题已知:(1)函数的值域为有限个离散点(2)函数在某些点上的函数值。求解:寻找一个函数能较好地预测其他点上的函数值 回归 从数学的角度看分类问题已知: (1)函数的值域为整个实数域; (2)函数在某些点上的函数值。求解: 寻找一个函数能较好地原创 2013-01-08 22:16:17 · 1323 阅读 · 0 评论 -
PageRank算法的实现一
PageRank算法的思想比较容易理解,基于被许多好的网页链接的网页一定是好的网页的思想。PageRank算法用邻接矩阵来表示网页的连接状态。矩阵A=(1-d)*q+d*p;A:网页的PageRank值q:矩阵,每个值都为1/m,表示每个网页都有m个链接出去的选择,概率为1/mp:概率转移矩阵d:阻尼系数,d*p表示在随机模型中网页将自身的份额的PageRank值平均分原创 2012-12-29 14:34:52 · 7586 阅读 · 1 评论 -
数据挖掘数据集下载资源
1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b2、几个实用的测试数据集下载的网站http://www.fs.fed.us/fire/fuelman/http://www.cs.toronto.edu/~roweis/data.htmlhttp://www.cs.toronto.edu/~roweis/data.htmlhttp转载 2012-12-15 21:22:03 · 3475 阅读 · 1 评论 -
关于PCA+KNN下的人脸识别
这相当于一个工作总结。 接触机器学习以后,首先感兴趣的就是PCA算法,通过降维将特征空间大大简化。并在matlab中写了下代码,本来想用C++实现,最后发现求特征向量还需要QR迭代法,算法非常麻烦,所以就在matlab中,通过调用已经写好的库函数,实现了一个简单的程序。接着就是后面的模式识别和多媒体课程,让我了解到人脸识别的大致过程。所以就根据所学的只是写了PCA+KNN的人脸识原创 2012-12-15 19:15:52 · 7650 阅读 · 1 评论 -
matlab下的Kmeans聚类算法
K-means聚类算法采用的是将N*P的矩阵X划分为K个类,使得类内对象之间的距离最大,而类之间的距离最小。使用方法:Idx=Kmeans(X,K)[Idx,C]=Kmeans(X,K) [Idx,C,sumD]=Kmeans(X,K) [Idx,C,sumD,D]=Kmeans(X,K) […]=Kmeans(…,’Param1’,Val1,’Param2’,Val2转载 2012-12-13 14:17:37 · 1827 阅读 · 0 评论 -
Adaboost算法实现一
对前四次迭代分析训练数据实验样本:30个 43.8744 84.0717 1 38.1558 25.4282 2 76.5517 81.4285 1 79.5200 24.3525 2 18.6873 92.9264 1 48.9764原创 2012-12-24 16:04:57 · 3878 阅读 · 0 评论 -
神经网络与支持向量机
神经网络是基于传统统计学的基础上的.传统统计学研究的内容是样本无穷大时的渐进理论,即当样本数据趋于无穷多时的统计性质,而实际问题中样本数据往往是有限的.因此,假设样本数据无穷多,并以此推导出的各种算法很难在样本数据有限时取得理想的应用效果.而支持向量机则是基于统计学理论的基础上的,可以克服神经网络难以避免的问题.通过支持向量机在逼近能力方面与BP网络仿真结果的比较表明,支持向量机具有较强的转载 2012-12-24 13:36:09 · 2193 阅读 · 0 评论 -
pca在人脸识别中的应用
前一段时间一直在学习机器学习算法,上个星期感觉学的比较迷茫,跟一位师兄谈过一次,说说自己现在的学习状态,以及改进方法。主要的收获就是,现在学的知识太泛了,没有深入学习,了解了很多机器学习算法但是里面真正的原理并没有掌握,于是就给了自己一个建议:从小做起,先学简单的算法,并且自己能够实现。简单的往往也不简单,掌握了一种算法后会应用比较广。很赞成这一句话:当你看的最痛苦最纠结的部分,往往是它的精华所在原创 2012-12-06 13:46:24 · 1614 阅读 · 0 评论 -
pca算法的实现
按照pca的处理步骤,终于用matlab把pca的算法写好了,本来想用C++写的,中间遇到了一个问题:就是在求特征值和特征向量的时候比较麻烦,需要QR迭代算法。自己就投机取巧,matlab里只需要调用一个函数就可以了。想着用matlab把功能实现了先看看效果。 PCA的处理步骤: 1,均值化 2,求协方差矩阵(我知道的有两种方法,这是第一种,按原创 2012-12-06 13:02:06 · 6796 阅读 · 0 评论 -
贝叶斯分类预测的实现一
朴素贝叶斯分类工作过程:1,设D是训练元组和相关联的类标号的集合。2,假定有m个类C1,C2,C3,...Cm。给定元组X,分类法将预测X属于具有最高后验概率(条件X下)的类,即,当P(Ci|X)>P(Cj|X),朴素贝叶斯分类法预测X属于类Cj贝叶斯定理:P(Ci|X)=P(X|Ci)P(Ci)/P(X)3,问题转换为根据P(X|Ci)P(Ci)/P(X)的大小判断类别,先求P(原创 2012-12-30 17:05:19 · 4980 阅读 · 6 评论 -
梯度下降法一
学习梯度下降法,首先要掌握梯度,法向量和切线之间的区别。 步长:一维寻优法 源码:%梯度下降法的思路%步长的第一种解法:一维寻优法x=[1;3]; error=10^(-20);k=0;flag=0;syms x1 x2 L m % 目标函数 %%f=(x1-2)^2+2*(x2-1)^2;f=x1-x2+2*x1^2+2原创 2012-12-19 17:03:24 · 1015 阅读 · 0 评论 -
决策树的经典构造算法ID3&C4.5
出处:http://hi.baidu.com/ayongs/item/cb9bd9d3998b9816d80e4418决策树概述: 决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。一般的数据挖掘工具,允许选择分裂条件和修剪规则,以及控制参数(最小节点的大小,转载 2013-01-08 16:06:38 · 2220 阅读 · 0 评论 -
CART算法学习及实现
出处:http://blog.csdn.net/happyblogs/article/details/6843520 1.算法介绍 分类回归树算法:CART(Classification And Regression Tree)算法采用一种二分递归分割的技术,将当前的样本集分为两个子样本集,使得生成的的每个非叶子节点都有两个分支。因此,CART算法生成的决策树是结构简洁的二叉树。转载 2013-01-08 15:27:04 · 1077 阅读 · 0 评论 -
Apriori算法的实现三
在matlab下写了一个Apriori算法源码%apriori算法置信度2clearclcdata=[1,2,5,0;2,4,0,0;2,3,0,0;1,2,4,0;1,3,0,0;2,3,0,0;1,3,0,0;1,2,3,5;1,2,3,0];[cur1,curl1]=apriori1(data);[cur2,curl2]=apriori2(data);[cur原创 2013-01-04 20:07:12 · 5389 阅读 · 1 评论 -
Apriori算法的实现二
在原有程序的基础上,把读文件操作加上。 //支持度不小于2,置信度不小于0.8#include "stdio.h"#include "iostream.h"#include "string.h"//定义全局变量char curL1[20][2];//实现出现的一维子集int countL1[10];//找到各一维频繁子集出现的次数。char curL2[20原创 2013-01-04 13:44:45 · 1775 阅读 · 0 评论 -
Kmeans算法的实现二
load data.txt; a=data(1:30,1:4);%取第一类的前三十组aa=data(31:50,1:4);%第一类的后二十组b=data(51:80,1:4);%第二类的前三十组bb=data(81:100,1:4);%第二类的后二十组c=data(101:130,1:4);%取第三类的前三十组cc=data(131:150,1:4); %第三类的后二十组原创 2012-12-20 15:28:23 · 1132 阅读 · 0 评论 -
Kmeans聚类的实现一
Kmeans聚类的基本思想:首先,随机地选择k个对象,每个对象代表一个簇的初始均值或中心。对于剩余的每个元素,根据其与各个簇均值的距离,将它指派到最相似的簇。然后计算每个簇的新均值。这个过程不断重复,直到准则函数收敛。数学原理:最小平方误差准则。 使用matlab中自带的Kmeans工具箱以及IRIS数据集进行实验。 实验结果:聚类:88%;分类:80%;源原创 2012-12-20 15:25:44 · 1319 阅读 · 0 评论 -
梯度下降法三
步长:微分法 另外还有一种方法是判断Hesses是否正定 源码:%梯度下降法%求步长的第二种思路(微分法)的第二种使用x=[0;3]; error=10^(-1);k=0;flag=0;syms x1 x2 t m % 目标函数 %%f=(x1-2)^2+2*(x2-1)^2;%f=x1-x2+2*x1^2+2*x1*x2+x2^2;原创 2012-12-20 09:21:58 · 695 阅读 · 0 评论 -
Aprior算法的实现
终于把Aprior的算法过程看懂了,Aprior算法的原理其实很简单,但是当真正写起代码来还是比较麻烦,在百度文库了,下了一个C++版的Aprior算法,用来研究。 算法思想:1,先对样本数据,用二维数组保存。2,找一元频繁集,先遍历一下样本数组,保存成一列的形式cur[n][],然后再扫描那一列,提取不重复元素保存起来curL1[][],再次遍历样本列,把每个不重复元素的个数记录原创 2012-12-16 21:17:04 · 5447 阅读 · 0 评论