2015年09月_mydear_11000

转载利用不相交集实现等价元素的聚类

说到聚类，相信大家最先想到的应该是k-means，但是我们知道k-means必须指定聚类的个数，而且聚类初始点的选取也很大影响最后聚类的效果。虽然有一些方法（如k-means++）可以设置较为合理的初始聚类点，但仍然需要指定聚类的个数，但有时我们并不知道一堆数据中有多少个类，这样就使得聚类变得没法下手。这里介绍一种利用一种树型数据结构——不相交集，实现的数据聚类方法。不相交集（disjoint

2015-09-30 10:02:17 789

转载 TLD（Tracking-Learning-Detection）学习与源码理解之（学习器）

这一部分是TLD算法的核心之处，有了前面两篇的铺垫，终于可以毫无顾忌的说说这一部分了。不过，还有一座大山，程序的初始化，这是程序运行的铺垫，内容很多……。初始化在run_tld.cpp中，一旦你选的要跟踪的目标box后便会调用初始化init:tld.init(last_gray,box,bb_file);//初始目标位置存储在box内容太多，大伙看下面程序中标出的9点吧，其

2015-09-30 07:18:14 1456

转载 TLD动态跟踪系统中的学习策略—P-N Learning

1概述本文显示二类分类器的表现可以通过未标记数据结构化的处理过程来提升，也就是说，如果知道一个样本的标记对其他样本的标记有限制，那么认为数据是结构化的。本文提出P-N learning 用已标记和未标记的样本来训练二类分类器，训练的过程通过用来限制未标记数据集的“正约束”、“负约束”来指导。每次迭代过程中P-N learning在未标记的训练集上评价分类器，识别那些分类器分类结果与

2015-09-29 09:09:49 646

转载 TLD源码理解之TLD.cpp

TLD.cpp[cpp] view plaincopy/* * TLD.cpp * * Created on: Jun 9, 2011 * Author: alantrrs */ #include #include using namespace cv; using names

2015-09-29 09:06:35 815

转载关于PatchGenerator类

该类是OPENCV中的一个类。类PatchGenerator的声明位于legacy.hpp中；class CV_EXPORTS PatchGenerator{public: PatchGenerator(); PatchGenerator(double _backgroundMin, double _backgroundMax,

2015-09-29 09:00:37 2956

转载 TLD源码深度分析：初始化模块

8. classifier.trainF(ferns_data,2)输入：已混合打乱的正负样本特征数据：ferns_data输出：分类器模型：任何特征对应可信度(该图像块为正样本的概率)：posteriors描述：统计P/N约束被使用的次数，来计算一个特征的可信度更多详情见《集成分类器》 9.

2015-09-29 08:59:55 689

转载 TLD初始化模块实现流程

初始化模块的目的：得到，方差分类器：方差阈值var 集成分类器：每个特征对应该图像块为目标的概率最近邻分类器：模板集

2015-09-29 08:59:25 676

转载 TLD参数卡说明

parameters.yml文件的内容：%YAML:1.0Parameters: min_win: 15 patch_size: 15 ncc_thesame: 0.95 valid: 0.5 num_trees: 10 num_features: 13 thr_fern: 0.6 thr_nn: 0.65 thr_n

2015-09-29 08:03:54 867

转载大白话解析模拟退火算法

大白话解析模拟退火算法Posted on 2010-12-20 17:01 苍梧阅读(34912) 评论(55) 编辑收藏　　优化算法入门系列文章目录（更新中）：　　1. 模拟退火算法　　2. 遗传算法一. 爬山算法 ( Hill Climbing ) 介绍模拟退火前，先介绍爬山算法。爬山算法是一

2015-09-28 09:25:42 384

转载牛顿法

平时经常看到牛顿法怎样怎样，一直不得要领，今天下午查了一下维基百科，写写我的认识，很多地方是直观理解，并没有严谨的证明。在我看来，牛顿法至少有两个应用方向，1、求方程的根，2、最优化。牛顿法涉及到方程求导，下面的讨论均是在连续可微的前提下讨论。 1、求解方程。并不是所有的方程都有求根公式，或者求根公式很复杂，导致求解困难。利用牛顿法，可以迭代求解。原理是利用泰勒公式，在x0处展开，

2015-09-28 09:25:08 409

转载聚类算法之K-means

区分两个概念：hard clustering：一个文档要么属于类w，要么不属于类w，即文档对确定的类w是二值的1或0。soft clustering：一个文档可以属于类w1，同时也可以属于w2，而且文档属于一个类的值不是0或1，可以是0.3这样的小数。 K-Means就是一种hard clustering，所谓K-means里的K就是我们要事先指定分类的个数，即K个。 k-

2015-09-28 09:24:39 563

转载聚类的一些评价手段

什么是聚类聚类简单的说就是要把一个文档集合根据文档的相似性把文档分成若干类，但是究竟分成多少类，这个要取决于文档集合里文档自身的性质。下面这个图就是一个简单的例子，我们可以把不同的文档聚合为3类。另外聚类是典型的无指导学习，所谓无指导学习是指不需要有人干预，无须人为文档进行标注。聚类的评价既然聚类是把一个包含若干文档的文档集合分成若干类，像上图如果聚类算法应该把文档集合分成3

2015-09-28 09:24:05 491

转载 Bias Variance Tradeoff

统计学习中有一个重要概念叫做residual sum-of-squares　　RSS看起来是一个非常合理的统计模型优化目标。但是考虑k-NN的例子，在最近邻的情况下（k=1），RSS=0，是不是k-NN就是一个完美的模型了呢，显然不是k-NN有很多明显的问题，比如对训练数据量的要求很大，很容易陷入维度灾难中。　　k-NN的例子说明仅仅优化RSS是不充分的，因为针对特定训练集合拟合很

2015-09-28 09:22:58 616

转载逻辑回归概述

Logistic regression （逻辑回归）是当前业界比较常用的机器学习方法，用于估计某种事物的可能性。比如某用户购买某商品的可能性，某病人患有某种疾病的可能性，以及某广告被用户点击的可能性等。（注意这里是：“可能性”，而非数学上的“概率”，logisitc回归的结果并非数学定义中的概率值，不可以直接当做概率值来用。该结果往往用于和其他特征值加权求和，而非直接相乘）　　那么它究

2015-09-28 09:15:39 4517 1

转载 K近邻算法

下图中，绿色圆要被决定赋予哪个类，是红色三角形还是蓝色四方形？如果K=3，由于红色三角形所占比例为2/3，绿色圆将被赋予红色三角形那个类，如果K=5，由于蓝色四方形比例为3/5，因此绿色圆被赋予蓝色四方形类。　　K 最近邻 (k-Nearest Neighbor，KNN) 分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一，1968年由 Cover 和 Hart

2015-09-28 09:15:10 763

转载机器学习中的相似性度量

在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement)，这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究，甚至关系到分类的正确与否。　　本文的目的就是对常用的相似性度量作一个总结。　　本文目录：　　1. 欧氏距离　　2. 曼哈顿距离　　3. 切比雪夫距离　　4.

2015-09-28 09:14:06 394

转载统计模型之间的比较

HMM 模型将标注看作马尔可夫链，一阶马尔可夫链式针对相邻标注的关系进行建模，其中每个标记对应一个概率函数。HMM 是一种产生式模型，定义了联合概率分布，其中 x 和 y 分别表示观察序列和相对应的标注序列的随机变量。为了能够定义这种联合概率分布，产生式模型需要枚举出所有可能的观察序列，这在实际运算过程中很困难，因为我们需要将观察序列的元素看做是彼此孤立的个体即假设每个元素彼此独立，任何时刻

2015-09-28 09:13:10 546

转载判别式模型与生成式模型

摘要　　　生成式模型：无穷样本 -> 概率密度模型 = 产生式模型 -> 预测　　判别式模型：有限样本 -> 判别函数 = 判别式模型 -> 预测简介　　简单的说，假设 o 是观察值，m 是模型。　　如果对 P(o|m) 建模，就是生成式模型。其基本思想是首先建立样本的概率密度模型，再利用模型进行推理预测。要求已知样本无穷或尽可能的大限制。这

2015-09-28 09:12:33 496

转载隐马尔可夫模型攻略

隐马尔可夫模型 (Hidden Markov Model，HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中，随后在语言识别，自然语言处理以及生物信息等领域体现了很大的价值。平时，经常能接触到涉及 HMM 的相关文章，一直没有仔细研究过，都是蜻蜓点水，因此，想花一点时间梳理下，加深理解，在此特别感谢 52nlp 对 HMM 的详细介绍。　　考虑下面交通灯的

2015-09-28 09:11:36 589

转载粒子群优化PSO

粒子群算法(1)----粒子群算法简介分类：粒子群算法研究2007-04-18 20:59 5521人阅读评论(9) 收藏举报算法optimization优化system生物图形粒子群算法简介一、粒子群算法的历史粒子群算法源于复杂适应系统（Complex Adaptive System,CAS）。CAS理论于1994年正式提出，

2015-09-28 09:10:09 1203 1

转载机器学习中的算法(1)-决策树模型组合之随机森林与GBDT

2015-09-28 09:07:39 455

转载基于GPU的数字图像并行处理研究

摘要：针对像素级图像处理算法并行化程度高的特点，利用GPU的并行流处理特性和可编程性，提出了基于GPU的数字图像并行化处理方法，并对其基本执行流程和其中的关键技术问题：数据加载，结果反馈、保存等进行了详细论述。最后通过图像的卷积运算验证了GPU的并行处理能力。关键词：GPU；片元程序；Cg；并行处理GPU并行化处理　　可编程图形处理器（Programmable Graphic Proc

2015-09-26 11:28:22 4274

转载基于CUDA的GPU优化建议

l GPU硬件特性n 存储层次u Global memory：l 大小一般为几GBl chip-off的DRAM介质存储器l 访问速度慢（是shared memory的上百倍）l 对于是否对齐和连续访问敏感（由DRAM的性质决定）l 可以被所有的线程访问u Shared memory：l 每个SM中一般几十KBl chip-on的SRAM介质存储器l 访

2015-09-26 08:52:55 616

转载相似图片搜索的原理

作者：阮一峰日期： 2011年7月21日上个月，Google把"相似图片搜索"正式放上了首页。你可以用一张图片，搜索互联网上所有与它相似的图片。点击搜索框中照相机的图标。一个对话框会出现。你输入网片的网址，或者直接上传图片，Google就会找出与其相似的图片。下面这张图片是美国女演员Alyson Hannigan。上传后

2015-09-25 12:11:20 2275

转载最大熵模型与最大似然概率

对于自然语言处理中的各种模型来说，最大熵模型是一种在形式上最简单，但是在实现上却最复杂的模型。最大熵模型就是在满足已知条件的情况下，求得使熵最大的概率模型。说起来很简单，实际上要求得这个熵最大的概率模型，计算量十分巨大，因此需要仔细设计细节。最大熵模型最大的难点来源于特征的选取和参数估计。其中特征选取的需要很多次迭代，在迭代的过程中逐步对参数进行估计。在最大熵模型参数的计算中，

2015-09-25 12:10:20 1172

转载线性判别分析(Linear Discriminant Analysis, LDA）算法分析

LDA算法入门一． LDA算法概述：线性判别式分析(Linear Discriminant Analysis, LDA)，也叫做Fisher线性判别(Fisher Linear Discriminant ,FLD)，是模式识别的经典算法，它是在1996年由Belhumeur引入模式识别和人工智能领域的。性鉴别分析的基本思想是将高维的模式样本投影到最佳鉴别矢量空间，以达到抽取分类

2015-09-25 12:09:50 714

转载图，谱，马尔可夫过程，聚类结构

题目中所说到的四个词语，都是Machine Learning以及相关领域中热门的研究课题。表面看属于不同的topic，实际上则是看待同一个问题的不同角度。不少文章论述了它们之间的一些联系，让大家看到了这个世界的奇妙。从图说起这里面，最简单的一个概念就是“图”(Graph)，它用于表示事物之间的相互联系。每个图有一批节点(Node)，每个节点表示一个对象，通过一些边(Edge)把这些

2015-09-25 12:09:08 488

转载图像处理与计算机视觉：基础，经典以及最近发展

///////////////////推荐博客//////////////////////////////////////xdyang的图像视觉小屋图像处理与计算机视觉经典论文(6)图像处理与分析(10)计算机视觉(8)模式识别和机器学习(12)[置顶] 图像处理与计算机视觉：基础，经典以及最近发展//////

2015-09-25 12:07:13 1232

转载最大熵模型

最大熵模型：读书笔记胡江堂，北京大学软件学院 1. 物理学的熵2. 信息论的熵3. 熵和主观概率（一个简单注释4. 熵的性质4.1. 当所有概率相等时，熵取得最大值4.2. 小概率事件发生时携带的信息量比大概率事件发生时携带的信息量多5. 最大熵原理：直觉讨论6. 最大熵原理：一个手工例子7. 最大熵原理：

2015-09-25 12:03:53 2214

转载条件随机场 conditional random fields 及代码实现

条件随机场 conditional random fields 及代码实现分类：机器学习2012-08-27 10:29 301人阅读评论(0) 收藏举报条件随机场模型是由Lafferty在2001年提出的一种典型的判别式模型。它在观测序列的基础上对目标序列进行建模,重点解决序列化标注的问题条件随机场模型既具有判别式模型的优点,又具有产生式模型考虑到上下文标记间的转移概率

2015-09-25 12:03:07 2137

转载特征选择常用算法综述

特征选择常用算法综述Posted on 2011-01-02 14:40 heaad 阅读(7207) 评论(10) 编辑收藏 1 综述(1) 什么是特征选择特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ，或属性选择( Attribute Selection ) ，是指从全

2015-09-25 12:02:27 692

转载数学之美番外篇：平凡而又神奇的贝叶斯方法

Tags: 数学, 机器学习与人工智能, 计算机科学save it69 savedtags:贝叶斯mathbayesianalgorithm数学science教程bayesprogramming刘未鹏概率论只不过是把常识用数学公式表达了出来。——拉普拉斯记得读本科的时候，最喜欢到城里的计算机书店里面去闲逛，一逛就是好几个小时；有一次，在书店看

2015-09-25 12:01:20 1682

转载模型组合(Model Combining)之Boosting与Gradient Boosting

2015-09-25 11:57:40 340

正则化(regularization)在线性代数理论中，不适定问题通常是由一组线性代数方程定义的，而且这组方程组通常来源于有着很大的条件数的不适定反问题。大条件数意味着舍入误差或其它误差会严重地影响问题的结果。反问题有两种形式。最普遍的形式是已知系统和输出求输入，另一种系统未知的情况通常也被视为反问题。许多反问题很难被解决，但是其他反问题却很容易得到答案。显然，易于解决的问题不会比很难解决的问题更

2015-09-25 11:55:18 1408

转载支持向量机：Kernel II

本文是“支持向量机系列”的第七篇，参见本系列的其他文章。在之前我们介绍了如何用 Kernel 方法来将线性 SVM 进行推广以使其能够处理非线性的情况，那里用到的方法就是通过一个非线性映射 ϕ(⋅) 将原始数据进行映射，使得原来的非线性问题在映射之后的空间中变成线性的问题。然后我们利用核函数来简化计算，使得这样的方法在实际中变得可行。不过，从线性到非线性的推广我们并没有把 SVM 的式

2015-09-25 11:54:20 403

空空如也

空空如也