自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

蜗牛

统计机器学习,数学

  • 博客(31)
  • 资源 (14)
  • 收藏
  • 关注

翻译 Stanley-系列一

介绍机器人挑战大赛是由国防部高级研究计划局DARPA在2003年发起的,这是为了鼓励在无人地面车辆导航上的创新。挑战的目标是开发出能够在越野地形上自动行驶的机器人,且比赛的路程是机器人从未行驶过的。第一场比赛奖金是100万美元,在2004年3月13日举行。它需要机器人导航142英里长的路程通过Mojave沙漠且不超过10个小时。 注册了107个队伍,比赛了15场,然而参与的机器人导航没有一个超过全部

2015-05-30 16:05:53 1774

翻译 深度学习(上)

深度学习允许由多个处理层组成的计算模型来学习多个抽象层数据的表示。这些方法大大提高了目前最先进的语音识别,可视对象识别,目标检测和其他诸多领域如药物发现和基因组。深度学习发现大数据集结构很复杂,该结构使用BP算法来指示机器应该如何改变内部参数,这些参数是用于从前一层的表示来计算每层的表示。深度卷积网已经在处理图像,视频,语音和音频方面取得了突破,而递归网已经触及到连续数据,如文本和语音。机器学习技术

2015-05-29 19:20:14 2709

翻译 机器人驾驶的神经网络愿景(下)

3.4 通过缓冲增加多样性为了避免重复范例的影响,保险起见,通过保持一个先前遇到的训练模式缓冲器来进一步增加训练集的多样性。当新的训练模式是通过数字化和变换当前传感器图像获得时,将它们添加到缓冲器中,而将旧的模式移除。我们已经尝试了四种方法确定替换哪些模式。第一种方法是替换最旧的模式。采用这种方案,训练模式缓冲区代表最近遇到行驶状况的历史记录。但如果行驶状况在一段时间内保持不变,如一段时间的右转,那

2015-05-28 22:36:03 945 1

翻译 机器人驾驶的神经网络愿景(上)

许多现实世界的问题需要一定程度的灵活性,因为他们难以用人工编写的算法实现。这样的一个领域是基于视觉的自动驾驶。在这个任务中,多变的环境再加上实时处理约束的双重挑战使得机器学习系统的灵活性和有效性成为必需的要素。本章介绍了这样的一个学习系统,被称为ALVINN(Autonomous Land Vehicle In a Neural Network,神经网络的自动汽车)。它呈现了神经网络架构和训练的技

2015-05-28 00:58:10 1883 5

翻译 机器学习

在过去50年,机器学习的研究已经从几个计算机工程师探索计算机是否能学会玩游戏的影响下不断成长,统计领域(在很大程度上忽视计算的考虑)到广泛的学科(该学科产生了基本的学习过程的统计-计算理论)已经设计了许多学习算法,这些算法通常应用在商业系统中,例如语音识别,计算机视觉,和其他各种各样的任务,并已剥离了数据挖掘中的工业来发掘网上不断增长的数据量中隐藏的规律。这篇文章提供了该学科(已经作为机器学习出现了

2015-05-26 23:46:37 2812

翻译 协方差矩阵的几何解释

介绍在本文中,我们通过探索线性变换与所得数据协方差之间的关系提供协方差矩阵一个直观的几何解释。大部分教科书基于协方差矩阵的概念解释数据的形状。相反,我们采取一个反向的方法,根据数据的形状来解释协方差矩阵的概念。在《为什么样本方差除以N-1?》的文章中,我们会讨论方差的概念,并提供了众所周知的估算样本方差公式的推导和证明。这篇文章中使用的图1表明标准差(方差的平方根)提供了数据在特征空间上传播多少的量

2015-05-23 20:34:54 34973 12

翻译 特征值和特征向量

介绍特征向量和特征值在计算机视觉和机器学习中有许多重要的应用。众所周知的例子是PCA(主成分分析)进行降维或人脸识别是特征脸。特征向量和特征值的一个有趣应用在我的另一篇有关误差椭圆的博文中提到。此外,特征值分解形成协方差矩阵几何解释的基础。在这篇文章中,我将简单的介绍这个数学概念,并且展示如何手动获取二维方形矩阵的特征值分解。特征向量是一个向量,当在它上面应用线性变换时其方向保持不变。考虑下面的图像

2015-05-22 22:09:22 134500 14

翻译 PCA-特征提取

介绍在这篇文章中,我们讨论主成分分析(PCA)是如何工作的,以及它如何被用来作为分类问题的降维技术。在这篇文章的末尾,出于证明的目的提供了Matlab源代码。在前面的文章中,我们讨论了所谓的维数诅咒,表明在高维空间分类器倾向于过度拟合训练数据。接下来产生的问题是哪些特征应该保留,哪些应该从高维特征向量中删除。如果此特征向量的所有特征是统计独立的,可以简单地从这个向量中消除最小的判别特征。通过各种贪婪

2015-05-22 16:27:39 40253 15

翻译 维数诅咒

介绍在这篇文章中,我们将讨论所谓的“维数的诅咒”,并解释为什么在设计分类器时它是很重要的。以下各节我会提供这个概念直观的解释,并用一个由于维数灾难导致的过拟合例子图解说明。考虑这样一个例子,我们有一组图像,其中每个表示猫或狗。我们想创建一个分类器,它能够自动识别狗和猫。要做到这一点,我们首先需要考虑每个对象类的描述,该描述可以用数字来表示。这样的数学算法,即分类器,可以用这些数字来识别对象。例如,我

2015-05-21 18:37:37 8281 1

翻译 PRML-系列二之2.3

高斯分布高斯,也称为正态分布,在连续变量分布中是被广泛使用的模型。在单一变量x的情况下,高斯分布可以写成如下形式 其中μ是均值,σ2是方差。对一个D维向量x,多元高斯分布的形式为 其中μ是一个D维均值向量,Σ是DxD的协方差矩阵,并且|Σ|表示Σ的行列式。 高斯分布出现在许多不同的环境中和可以从各种不同的角度激发出来。例如,我们已经看到对于单一实变量,最大化熵的分布是高斯分布。这个属性

2015-05-21 15:04:41 2254 2

翻译 PRML-系列二之2.2

多项变量  二进制变量可以描述两个可能值中取一个的量。然而,通常我们遇到离散变量是从K个可能的互斥状态中选取一个。虽然有各种不同的替代方式表达这种变量,但我们将很快看到一个特别方便的表示是1-of-K方案,其中变量由K维向量x表示,向量x中的一个元素xk等于1,并且其余元素等于0。例如,如果我们有一个K=6个状态的变量并且一个特定的变量观察值恰好对应于x3=1的状态,则x将被表示为: 注意向量

2015-05-19 15:20:02 753

翻译 PRML-系类二之2.1

二元变量  我们首先考虑一个二元随机变量x∈{0,1}。例如,x可以描述抛硬币的结果,其中x=1表示正面而x=0表示反面。我们可以想像,这是一个损坏的硬币,所以正面的概率并不一定等于反面的概率。x=1的概率由参数μ表示 其中,由此得到。x上的概率分布可以写作: 这就是伯努利分布。很容易证实它是归一化的并且均值和方差为:   现在假设我们有观测值x的一个数据集D ={x1,,, xn

2015-05-18 21:29:11 1056

翻译 PRML-系列二

概率分布  在第一章中,我们强调了模式识别中概率论所起的核心作用。我们现在转到概率分布及它们属性具体实例的探索。除了对他们自己的权利有极大兴趣外,这些分布可形成更复杂模型中的积木块,(其实就是通过一些组合可以用来处理更复杂的模型)这将在整本书中被广泛使用。本章介绍的分布也出于另一个重要的目的,即提供给我们讨论一些关键统计概念的机会,如贝叶斯推理,我们首先给出简单的例子,之后的章节中探讨更复杂的情况。

2015-05-17 14:57:08 603

翻译 PRML-系列一之1.6.1

相关熵和交互信息  到目前为止,我们已经介绍了一些信息论的概念,包括熵的关键概念。我们现在开始这些想法到模式识别。考虑未知分布p(x),假设我们用近似分布q(x)为期建模。为了发送x的值到接收器,如果我们用q(x)来构造编码方案,那么指定x值所需的平均信息附加量(假设我们选择了一个高效的编码方案)由下式给出 这被称为分布p(x)和q(x)之间的相对熵或Kullback-Leibler散度或KL

2015-05-16 14:36:28 1051

翻译 PRML-系列一之1.6

信息论  在本章中,我们讨论概率论和决策论的许多概念,他们是本书随后讨论的基础。我们通过引入一些信息论领域额外的概念来结束本章,这些概念也在模式识别和机器学习技术的发展中也是很有用的。再次,我们只关注关键的概念,并建议读者参考其他地方更详细的讨论(Viterbi和Omura,1979;Couver和Thomas,1991;MacKay,2003年)。   我们首先考虑一个离散型随机变量x并问当我们

2015-05-14 22:54:55 1432 1

翻译 PRML-系列一之1.5.5~1.5.6

推理和决策  我们已经将分类问题分成两个独立的阶段,推理阶段,我们使用训练数据来学习p(Ck| x)的模型,在随后的决策阶段,我们使用这些后验概率做出最优分类任务。另一种可能性是一起解决这两个问题,简单学习一个直接映射输入x到决策的函数。这样的函数被叫做判别函数。   事实上,我们可以找出三种不同的方法来解决决策问题,所有这些都被用于实际应用。 (a)首先对于每一个类Ck解决确定条件为类的密度p

2015-05-14 00:50:08 1335

翻译 PRML-系列一之1.5.1~1.5.3

最小化误分类率  假设我们的目标是尽可能降低错误分类。那么我们就需要一个给每个x值分配可用类的规则。这样的规则输入空间划分成区域Rk,称为决策区域,Rk中的所有点都被分配到类Ck。决定区域之间称为决策边界或决策表面。注意,每个决策区域不必是连续的,但由一些互斥的地区组成。我们将在后面的章节中遇到决策边界和决策区域的实例。为了找到最佳的决策规则,首先考虑两个类的所有情况,如癌症问题。当属于C1类的输入

2015-05-13 18:24:55 1011

翻译 高斯分布

数据挖掘中的高斯分布高斯分布,无论是单变量还是多元变量,在统计数据挖掘中是非常有用的,包括一些底层数据假设是高度非高斯的数据挖掘模型。我们需要好好了解多元高斯。为什么我们应该关注它高斯像橘子汁和阳光一样是自然存在的我们需要它来理解贝叶斯最优分类器我们需要它来理解回归我们需要它来理解神经网络我们需要它来理解混合模型……PDF(概率密度函数)的熵 分布的熵越大,预测就越困难,压缩就越困难

2015-05-13 16:06:18 11816 5

原创 神经网络的简单理解

声明:本篇文章根据一些知乎网友的讨论整理得到,在这里感谢他们通俗易懂的说明。   斯坦福大学的印度学生、机器学习爱好者 PararthShah 在2012年12月22日的使用买芒果的例子解释了神经网络,简单来说就是:如果你需要选芒果,但不知道什么样的芒果最好吃,一个简单粗暴的方法是尝遍所有的芒果,然后总结出个大深黄色的比较好吃,那么以后再去买的时候,就可以直接挑选这种。那什么是机器学习呢,就是你让

2015-05-12 15:18:02 7295

翻译 PRML-系列一之1.5

决策论  我们已经在1.2节看到概率论如何为我们提供了对量化和操作不确定性的一个一致数学框架。这里,我们转向决策论的讨论,当它与概率论结合时,使得我们在涉及模式识别中遇到的不确定性情况下可以做出最优决策。   假设我们有一个输入向量x以及相应的目标向量t,我们的目标是给出x的新值来预测t。对于回归问题,t由连续变量组成,而对于分类问题,t代表类标签。联合概率分布p(x,t)提供了与这些变量相关的不

2015-05-12 13:50:40 1076

翻译 PRML-系列一之1.3~1.4

模型选择  使用最小二乘的多项式曲线拟合例子中,我们看到多项式有一个最优阶给出了最好的泛化。多项式的阶控制模型中自由参数的数量,并由此管理模型的复杂度。随着正规化最小二乘,正规化系数λ还控制模型的有效复杂度,而对于较复杂的模型,如混合分布或神经网络可能有多个参数管理复杂性。在实际应用中,我们需要确定这种参数值,并这样做的主要目的通常是要实现对新数据的最佳预测表现。此外,和找到给定模型中复杂参数的合适

2015-05-11 17:12:56 739

翻译 PRML-系列一之1.2.5~1.2.6

曲线拟合  我们已经看到多项式曲线拟合问题如何用误差最小化的形式来表示。这里,我们回到曲线拟合例子并从概率的角度来看待它,从而获得一些对误差函数和正规化的深刻理解,以及引导我们到一个完整的贝叶斯处理。   曲线拟合问题的目的是给定输入变量x的一些新值来预测目标变量t。我们可以用概率分布来表达对目标变量值的不确定性。出于这个目的,我们假设,给定x值,相应值t满足高斯分布,其均值等于(1.1)给出的多

2015-05-10 23:02:51 1145

翻译 PRML-系列一之1.2.4

高斯分布  我们将用整个第2章介绍各种概率分布的研究以及他们的主要属性。但是,这里介绍连续变量最重要的概率分布即正态或高斯分布是比较合适的。在本章的其余部分我们将广泛使用这种分配,实际上贯穿本书的许多地方。   在一个实值变量x的情况下,高斯分布定义如下: 它由两个参数:μ称为平均值和σ2称为方差控制。方差的平方根σ叫做标准差,方差的倒数(β= 1 /σ2)叫做精度。我们不久将看到这些项的

2015-05-10 18:10:46 788

翻译 PRML-系列一之1.2.2~1.2.3

期望和方差  涉及概率最重要的操作是找到函数的加权平均值。在概率分布p(x)情况下函数f(x)的平均值称为f(x)的期望,并用E [f]表示。对于一个离散分布,它由下式给出: 使得平均值加权到不同x值的相应概率上。连续变量的情况下,期望用相应概率密度的积分表达: 对任意一种情况,如果我们给定一个有限的N个点,他们从概率分布或概率密度中得到,则期望可以近似为这些点上的有限和: 当我们

2015-05-10 02:02:37 1074

翻译 随机化试验

目前做机器学习的好处之一是人们实际在使用它!我们在日常基础上交互的许多系统后端是通过机器学习来驱动。在大多数这种系统中,随着用户与系统进行交互,系统设计者自然而然地希望优化模型随着时间,从而改善用户体验。为了给讨论打基础,让我们考虑一个在线门户网站的例子,就是试图给用户呈现有趣的新闻。用户谈到门户网站,并且基于门户网站提供给用户的任何信息,它推荐一个(或多个)新闻故事。用户选择读或不读该故事。自然而

2015-05-09 16:58:29 999

翻译 PRML-系列一之1.2.1

概率密度  除了考虑定义在离散事件上的概率外,我们也希望考虑连续变量的概率。我们的讨论限制到一个相对非正式的情况。如果真值变量x落在区间(x,x+Δx)上的概率由p(x)Δx且Δx→0给出,那么p(x)称为x上的概率密度,如图1.12。x位于区间(a,b)的概率由下式给出: 因为概率是非负的,并且x的值必须在实轴上,所以概率密度p(x)必须满足下面的两个条件: 根据变量的非线性变化,由于

2015-05-09 14:26:51 798

翻译 自编码vs概率模型

ML算法的概率解释我最喜欢的理论学习论文是用概率框架来解释启发式学习算法,并且我发现他们正在做一些深刻而有意义的事情。被训练成一个贝叶斯,我认为深刻的东西通常是指统计推断或拟合统计模型。一个实例是K-means算法。K-均值作为聚类算法在直观上很容易理解。但是,当我们观察到它实际上是高斯混合模型上期望最大化的一个特例时才真正的理解它做了什么。某种特殊情况下的解释让我们更好地明白算法的期望行为,也使我

2015-05-09 12:20:14 1319

翻译 PRML-系列一之1.2

概率论   模式识别领域中一个关键概念是不确定性。通过噪声测量以及有限大小的数据集都会出现。概率论提供了不确定性量化和操纵统一的框架并形成模式识别的中心基础之一。当与决策论(在1.5节中讨论)结合时,给出所有可获得的信息,我们就能够得到最佳预测,即使这些信息可能不完整或不明确的。   我们通过考虑一个简单的例子来介绍概率论的基本概念。想象一下,我们有两个箱子,一红一蓝,红色箱子中我们有2个苹果和

2015-05-09 00:25:41 761

翻译 PRML-系列一之1.1

实例:多项式曲线拟合   我们首先介绍一个简单的回归问题,我们将其作为本章的实例来引出一些关键的概念。假设我们观察到一个实际的输入变量x,我们希望用这个观察值来预测实际的目标变量t。为了表示,一种有益 的方式是:考虑用综合产生的数据得到的例子,因为该过程产生的数据与其他学习模型比较后我们可以知道精确的过程。本例中的数据是从带有随机噪声的函数sin(2πx)产生,如附件A中详细的描述。   现在

2015-05-08 16:07:55 969

翻译 PRML-系列一

1介绍 **搜索数据中模式的问题是基本的并且具有长久和成功的历史。例如,在16世纪Tycho Brache的大量天文观测让开普勒发现了行星运动的经验法则,这为经典力学的发展提供了一个跳板。同样,原子光谱规律的发现对20世纪早期的量子物理学的发展和验证起到了关键作用。模式识别领域通过计算算法的使用从数据中自动发掘规律并使用这些规律采取行动,如将数据分类成不同的类别。 考虑识别手写体

2015-05-07 17:19:50 950

翻译 贝叶斯定理

贝叶斯理论观测,获取知识和进行预测是科学过程的基础。我们预测的准确性取决于我们目前知识的质量和观测的精度。天气预报是一个熟悉的例子,对于天气工作的原理,如果我们知道的越多,我们就能更好地利用当前的观察和季节性记录来预测明天是否会下雨,预测与观测之间的任何不同可用于改善天气模型。贝叶斯统计体现了应用先前的理论和经验知识来制定假设的这个循环,在观测数据的基础上对他们进行排名并用观测数据来更新先验概

2015-05-05 23:59:32 2514 1

凸集代数(algebra of convex sets)

本片文档主要介绍了凸集的一些保凸代数运算,像加法,标量乘法,直和,线性变换,逆线性变换和逆加法等。

2016-11-30

凸集和凸锥(convex sets and cones)

本文主要介绍了凸包,凸组合,凸锥的概念以及相关运算

2016-11-29

仿射集(affine sets)

该文档介绍了凸分析中与仿射集相关的基础概念及一些定理,像仿射组合,仿射无关,仿射变换,还有超平面的概念。

2016-11-25

矩阵逆和转置

本文档介绍了线性代数中矩阵的逆和转置,以及求逆的方法。

2016-09-08

三角分解和行变换

本文档介绍了线性代数中的三角分解,A=LU以及行变换得到的置换矩阵。

2016-09-08

矩阵符号和矩阵乘法

本文档介绍了线性代数中线性方程的矩阵形式,还有高斯消元法的矩阵形式,以及矩阵乘法等。

2016-09-08

余弦和投影

本文档主要介绍线性代数中余弦和投影的相关知识,其中还涉及到投影矩阵和内积。

2016-09-08

投影和最小二乘

本片文章主要介绍线性代数中投影和最小二乘的相关知识,并且还会介绍投影矩阵以及加权最小二乘法。

2016-09-08

正交基和格拉姆-施密特正交化

本片文章主要介绍了线性代数里面的正交解以及格拉姆-施密特正价化的起因与求解过程,另外简单介绍了傅里叶级数的相关知识。

2016-09-08

数学方法论选讲

该文档是徐利治先生关于数学方法论的介绍和讲解。作者选了十个公认比较有趣的专题,对他们分别作了介绍、分析和讨论。这些内容,相信对从事数学或数理哲学的科研工作者和教师们会有一定的参考价值。

2015-11-16

error_ellipse

二维空间协方差矩阵可视化为一个误差椭圆的matlab和C++代码,C++代码应用到了opencv的库函数,所以如果需要运行这个代码需要配置opencv环境。

2015-05-23

主成分分析的matlab代码

PCA如何来进行降维 %% This script generates and plots 3D data, and performs a principal %% component analysis to decorrelate the data, and to reduce the %% dimensionality of the feature space. % Note that matlab has an optimized function to perform PCA: princomp() % However, in this script we perform PCA manually by calculating the % eigenvectors, for demonstration/educational purposes.

2015-05-22

模式识别和机器学习

这是模式识别和机器学习比较好的文章,知识点比较丰富,是比较全面的入门教材。

2015-05-06

贝叶斯定理实例

这个文件是关于贝叶斯定理的两个实例,通过数据来更加的直观理解贝叶斯定理。

2015-05-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除