PRML
文章平均质量分 88
会敲键盘的猩猩
研究方向为机器学习,尤其是统计学习,数学业余爱好者。
展开
-
自编码vs概率模型
ML算法的概率解释我最喜欢的理论学习论文是用概率框架来解释启发式学习算法,并且我发现他们正在做一些深刻而有意义的事情。被训练成一个贝叶斯,我认为深刻的东西通常是指统计推断或拟合统计模型。一个实例是K-means算法。K-均值作为聚类算法在直观上很容易理解。但是,当我们观察到它实际上是高斯混合模型上期望最大化的一个特例时才真正的理解它做了什么。某种特殊情况下的解释让我们更好地明白算法的期望行为,也使我翻译 2015-05-09 12:20:14 · 1354 阅读 · 0 评论 -
2.9 穆尔彭罗斯伪逆
声明:该文章翻译自MIT出版的《DEEP LEARNING》,博主会定期更新文章内容。由于博主能力有限,中间有过错之处希望大家给予批评指正,一起学习交流。只有方阵定义了矩阵求逆。假设我们得到矩阵的左逆,这样的话我们就能通过两边都左乘逆,解决下面的线性等式Ax=y\boldsymbol{Ax=y},得到x=By\boldsymbol{x=By}依赖于问题的结构,不太可能设计出唯一的 A\boldsym翻译 2015-10-21 08:46:06 · 3462 阅读 · 0 评论 -
2.10 迹算子
声明:该文章翻译自MIT出版的《DEEP LEARNING》,博主会定期更新文章内容。由于博主能力有限,中间有过错之处希望大家给予批评指正,一起学习交流。迹算子给出矩阵所有对角元素的总和:Tr(A)=∑iai,i\rm Tr(\boldsymbol{A})=\sum_i a_{i,i}出于一些原因,迹算子是非常有用的。一些操作在没有求和符号的情况下很难指定,但可以使用矩阵的乘积和迹算子指定。例如,迹翻译 2015-10-24 10:54:10 · 3254 阅读 · 0 评论 -
2.11 行列式
声明:该文章翻译自MIT出版的《DEEP LEARNING》,博主会定期更新文章内容。由于博主能力有限,中间有过错之处希望大家给予批评指正,一起学习交流。方阵的行列式(用det(A)\rm det(\boldsymbol{A})表示)是矩阵到标量的一个映射函数。行列式等于所有矩阵特征值的乘积。行列式的绝对值可以看做是矩阵膨胀或收缩了多少倍的空间。如果行列式等于0,那么空间至少收缩一维,因为它丢失了体翻译 2015-10-24 14:27:07 · 646 阅读 · 0 评论 -
2.12 主成分分析(上)
声明:该文章翻译自MIT出版的《DEEP LEARNING》,博主会定期更新文章内容。由于博主能力有限,中间有过错之处希望大家给予批评指正,一起学习交流。一个简单的机器学习算法,主成分分析(PCA) 可以只使用基本的线性代数知识推导出来。假设我们有mm个点 {x(1),...x(m)}\{\boldsymbol{x^{(1)},...x^{(m)}}\}的集合,它们都属于Rn\rm R^{n}。假设翻译 2015-10-26 14:17:58 · 884 阅读 · 0 评论 -
2.12 主成分分析(下)
声明:该文章翻译自MIT出版的《DEEP LEARNING》,博主会定期更新文章内容。由于博主能力有限,中间有过错之处希望大家给予批评指正,一起学习交流。为了进一步分析,我们必须替换g(c)g(c)的定义:c∗=argminc−2xTDc+cTDTDc\boldsymbol{c}^\ast=\rm{\mathop{argmin}_{c}}-2\boldsymbol{x}^T\boldsymbol{D翻译 2015-11-17 01:35:18 · 621 阅读 · 0 评论 -
3.1 概率
本章我们描述概率论。概率论是表示不确定现象的数学框架。它提供了定量不确定性和公理来导出新不确定现象的方法。在人工智能应用中,我们主要用在两个方面。首先,概率法则告诉我们人工智能系统应该如何推理,所以我们设计算法,来计算或近似各种用概率论推导出来的表达式。其次,我们可以用概率和统计理论来分析人工智能系统的行为。概率论是许多科学和工程学科的基本工具。我们提供这一章是为了确保较少接触概率论的软件工程可以理翻译 2015-11-21 00:34:31 · 669 阅读 · 0 评论 -
matlab
matlab for macdiff()函数无法正常显示求导的结果,如图所示: 查阅资料发现,原来是软件将字符当数值处理了,因此使用符号函数,就能解决问题了,如下图所示:原创 2015-10-12 09:10:25 · 622 阅读 · 0 评论 -
机器学习
在过去50年,机器学习的研究已经从几个计算机工程师探索计算机是否能学会玩游戏的影响下不断成长,统计领域(在很大程度上忽视计算的考虑)到广泛的学科(该学科产生了基本的学习过程的统计-计算理论)已经设计了许多学习算法,这些算法通常应用在商业系统中,例如语音识别,计算机视觉,和其他各种各样的任务,并已剥离了数据挖掘中的工业来发掘网上不断增长的数据量中隐藏的规律。这篇文章提供了该学科(已经作为机器学习出现了翻译 2015-05-26 23:46:37 · 2826 阅读 · 0 评论 -
机器人驾驶的神经网络愿景(上)
许多现实世界的问题需要一定程度的灵活性,因为他们难以用人工编写的算法实现。这样的一个领域是基于视觉的自动驾驶。在这个任务中,多变的环境再加上实时处理约束的双重挑战使得机器学习系统的灵活性和有效性成为必需的要素。本章介绍了这样的一个学习系统,被称为ALVINN(Autonomous Land Vehicle In a Neural Network,神经网络的自动汽车)。它呈现了神经网络架构和训练的技翻译 2015-05-28 00:58:10 · 1922 阅读 · 5 评论 -
2.8 奇异值分解
声明:该文章翻译自MIT出版的《DEEP LEARNING》,博主会定期更新文章内容。由于博主能力有限,中间有过错之处希望大家给予批评指正,一起学习交流。在2.7节中,我们看到如何将矩阵分解为特征向量和特征值。奇异值分解(SVD)提供了另一种因式分解矩阵方法,即分解为奇异向量和奇异值。 SVD让我们发现了一些和特征分解相同的信息。然而,SVD却更加适用。因为每个实矩阵具有奇异值分解,但不一定有特征值翻译 2015-10-20 17:30:03 · 1117 阅读 · 0 评论 -
2.7 特征分解
声明:该文章翻译自MIT出版的《DEEP LEARNING》,博主会定期更新文章内容。由于博主能力有限,中间有过错之处希望大家给予批评指正,一起学习交流。许多数学对象分解为一些组成成分后可以更好的理解,或者是找到它们普遍存在的性质,而这些性质不受限于我们选择的表达方式。例如,整数可以分解成质因子。数字12的表达方式取决于采用二进制还是十进制,但是 12=2×2×312=2\times2\times3翻译 2015-10-19 15:21:00 · 4778 阅读 · 0 评论 -
随机化试验
目前做机器学习的好处之一是人们实际在使用它!我们在日常基础上交互的许多系统后端是通过机器学习来驱动。在大多数这种系统中,随着用户与系统进行交互,系统设计者自然而然地希望优化模型随着时间,从而改善用户体验。为了给讨论打基础,让我们考虑一个在线门户网站的例子,就是试图给用户呈现有趣的新闻。用户谈到门户网站,并且基于门户网站提供给用户的任何信息,它推荐一个(或多个)新闻故事。用户选择读或不读该故事。自然而翻译 2015-05-09 16:58:29 · 1011 阅读 · 0 评论 -
神经网络的简单理解
声明:本篇文章根据一些知乎网友的讨论整理得到,在这里感谢他们通俗易懂的说明。 斯坦福大学的印度学生、机器学习爱好者 PararthShah 在2012年12月22日的使用买芒果的例子解释了神经网络,简单来说就是:如果你需要选芒果,但不知道什么样的芒果最好吃,一个简单粗暴的方法是尝遍所有的芒果,然后总结出个大深黄色的比较好吃,那么以后再去买的时候,就可以直接挑选这种。那什么是机器学习呢,就是你让原创 2015-05-12 15:18:02 · 7353 阅读 · 0 评论 -
高斯分布
数据挖掘中的高斯分布高斯分布,无论是单变量还是多元变量,在统计数据挖掘中是非常有用的,包括一些底层数据假设是高度非高斯的数据挖掘模型。我们需要好好了解多元高斯。为什么我们应该关注它高斯像橘子汁和阳光一样是自然存在的我们需要它来理解贝叶斯最优分类器我们需要它来理解回归我们需要它来理解神经网络我们需要它来理解混合模型……PDF(概率密度函数)的熵 分布的熵越大,预测就越困难,压缩就越困难翻译 2015-05-13 16:06:18 · 12257 阅读 · 5 评论 -
PCA-特征提取
介绍在这篇文章中,我们讨论主成分分析(PCA)是如何工作的,以及它如何被用来作为分类问题的降维技术。在这篇文章的末尾,出于证明的目的提供了Matlab源代码。在前面的文章中,我们讨论了所谓的维数诅咒,表明在高维空间分类器倾向于过度拟合训练数据。接下来产生的问题是哪些特征应该保留,哪些应该从高维特征向量中删除。如果此特征向量的所有特征是统计独立的,可以简单地从这个向量中消除最小的判别特征。通过各种贪婪翻译 2015-05-22 16:27:39 · 40611 阅读 · 15 评论 -
维数诅咒
介绍在这篇文章中,我们将讨论所谓的“维数的诅咒”,并解释为什么在设计分类器时它是很重要的。以下各节我会提供这个概念直观的解释,并用一个由于维数灾难导致的过拟合例子图解说明。考虑这样一个例子,我们有一组图像,其中每个表示猫或狗。我们想创建一个分类器,它能够自动识别狗和猫。要做到这一点,我们首先需要考虑每个对象类的描述,该描述可以用数字来表示。这样的数学算法,即分类器,可以用这些数字来识别对象。例如,我翻译 2015-05-21 18:37:37 · 8473 阅读 · 1 评论 -
2.3 单位矩阵和转置矩阵
声明:该文章翻译自MIT出版的《DEEP LEARNING》,博主会定期更新文章内容。由于博主能力有限,中间有过错之处希望大家给予批评指正,一起学习交流。线性代数提供了一个强有力的工具 ——矩阵求逆,可以解决等式 Ax=b。\boldsymbol{Ax}=\boldsymbol{b} 。 为了描述矩阵逆,我们首先需要定义单位矩阵的概念。当我们用单位矩阵乘以其它矩阵时,它不改变矩阵的值。我们用InI翻译 2015-10-12 11:03:48 · 6488 阅读 · 0 评论 -
2.4 线性相关和张成空间
声明:该文章翻译自MIT出版的《DEEP LEARNING》,博主会定期更新文章内容。由于博主能力有限,中间有过错之处希望大家给予批评指正,一起学习交流。为了使 A−1\boldsymbol{A^{-1}} 存在,等式 Ax=b\boldsymbol{Ax}=\boldsymbol{b} 对每个b\boldsymbol{b} 值有一个解。然而等式对某些 b\boldsymbol{b} 值可能没有解翻译 2015-10-13 18:20:41 · 6631 阅读 · 0 评论 -
2.5 范数
声明:该文章翻译自MIT出版的《DEEP LEARNING》,博主会定期更新文章内容。由于博主能力有限,中间有过错之处希望大家给予批评指正,一起学习交流。有时候,我们需要度量向量的尺度。在机器学习中,我们通常用Lp\boldsymbol{L}^p 范数来度量向量的尺度:∥x∥p= (∑i∥xi∥p )1/p\Vert\boldsymbol{x}\Vert_p= \ ( \sum_{i}\Vert x翻译 2015-10-14 18:05:51 · 3409 阅读 · 0 评论 -
2.6 特殊的矩阵和向量
声明:该文章翻译自MIT出版的《DEEP LEARNING》,博主会定期更新文章内容。由于博主能力有限,中间有过错之处希望大家给予批评指正,一起学习交流。 一些特殊的矩阵和向量是非常有用。对角矩阵是只有主对角线上的元素不为零。例如:矩阵 D\boldsymbol{D} 是对角矩阵,当且仅当对于所有 i≠ji \neq j ,di,j=0d_{i,j}=0。我们已经遇到过对角矩阵的例子:单位矩阵,所翻译 2015-10-17 11:31:05 · 1061 阅读 · 0 评论 -
机器人驾驶的神经网络愿景(下)
3.4 通过缓冲增加多样性为了避免重复范例的影响,保险起见,通过保持一个先前遇到的训练模式缓冲器来进一步增加训练集的多样性。当新的训练模式是通过数字化和变换当前传感器图像获得时,将它们添加到缓冲器中,而将旧的模式移除。我们已经尝试了四种方法确定替换哪些模式。第一种方法是替换最旧的模式。采用这种方案,训练模式缓冲区代表最近遇到行驶状况的历史记录。但如果行驶状况在一段时间内保持不变,如一段时间的右转,那翻译 2015-05-28 22:36:03 · 958 阅读 · 1 评论 -
深度学习(上)
深度学习允许由多个处理层组成的计算模型来学习多个抽象层数据的表示。这些方法大大提高了目前最先进的语音识别,可视对象识别,目标检测和其他诸多领域如药物发现和基因组。深度学习发现大数据集结构很复杂,该结构使用BP算法来指示机器应该如何改变内部参数,这些参数是用于从前一层的表示来计算每层的表示。深度卷积网已经在处理图像,视频,语音和音频方面取得了突破,而递归网已经触及到连续数据,如文本和语音。机器学习技术翻译 2015-05-29 19:20:14 · 2746 阅读 · 0 评论 -
PRML-系列一之1.5.5~1.5.6
推理和决策 我们已经将分类问题分成两个独立的阶段,推理阶段,我们使用训练数据来学习p(Ck| x)的模型,在随后的决策阶段,我们使用这些后验概率做出最优分类任务。另一种可能性是一起解决这两个问题,简单学习一个直接映射输入x到决策的函数。这样的函数被叫做判别函数。 事实上,我们可以找出三种不同的方法来解决决策问题,所有这些都被用于实际应用。 (a)首先对于每一个类Ck解决确定条件为类的密度p翻译 2015-05-14 00:50:08 · 1361 阅读 · 0 评论 -
PRML-系列一之1.5.1~1.5.3
最小化误分类率 假设我们的目标是尽可能降低错误分类。那么我们就需要一个给每个x值分配可用类的规则。这样的规则输入空间划分成区域Rk,称为决策区域,Rk中的所有点都被分配到类Ck。决定区域之间称为决策边界或决策表面。注意,每个决策区域不必是连续的,但由一些互斥的地区组成。我们将在后面的章节中遇到决策边界和决策区域的实例。为了找到最佳的决策规则,首先考虑两个类的所有情况,如癌症问题。当属于C1类的输入翻译 2015-05-13 18:24:55 · 1034 阅读 · 0 评论 -
PRML-系列一之1.5
决策论 我们已经在1.2节看到概率论如何为我们提供了对量化和操作不确定性的一个一致数学框架。这里,我们转向决策论的讨论,当它与概率论结合时,使得我们在涉及模式识别中遇到的不确定性情况下可以做出最优决策。 假设我们有一个输入向量x以及相应的目标向量t,我们的目标是给出x的新值来预测t。对于回归问题,t由连续变量组成,而对于分类问题,t代表类标签。联合概率分布p(x,t)提供了与这些变量相关的不翻译 2015-05-12 13:50:40 · 1082 阅读 · 0 评论 -
PRML-系列一之1.3~1.4
模型选择 使用最小二乘的多项式曲线拟合例子中,我们看到多项式有一个最优阶给出了最好的泛化。多项式的阶控制模型中自由参数的数量,并由此管理模型的复杂度。随着正规化最小二乘,正规化系数λ还控制模型的有效复杂度,而对于较复杂的模型,如混合分布或神经网络可能有多个参数管理复杂性。在实际应用中,我们需要确定这种参数值,并这样做的主要目的通常是要实现对新数据的最佳预测表现。此外,和找到给定模型中复杂参数的合适翻译 2015-05-11 17:12:56 · 789 阅读 · 0 评论 -
PRML-系列一之1.2.5~1.2.6
曲线拟合 我们已经看到多项式曲线拟合问题如何用误差最小化的形式来表示。这里,我们回到曲线拟合例子并从概率的角度来看待它,从而获得一些对误差函数和正规化的深刻理解,以及引导我们到一个完整的贝叶斯处理。 曲线拟合问题的目的是给定输入变量x的一些新值来预测目标变量t。我们可以用概率分布来表达对目标变量值的不确定性。出于这个目的,我们假设,给定x值,相应值t满足高斯分布,其均值等于(1.1)给出的多翻译 2015-05-10 23:02:51 · 1169 阅读 · 0 评论 -
PRML-系列一之1.2.4
高斯分布 我们将用整个第2章介绍各种概率分布的研究以及他们的主要属性。但是,这里介绍连续变量最重要的概率分布即正态或高斯分布是比较合适的。在本章的其余部分我们将广泛使用这种分配,实际上贯穿本书的许多地方。 在一个实值变量x的情况下,高斯分布定义如下: 它由两个参数:μ称为平均值和σ2称为方差控制。方差的平方根σ叫做标准差,方差的倒数(β= 1 /σ2)叫做精度。我们不久将看到这些项的翻译 2015-05-10 18:10:46 · 806 阅读 · 0 评论 -
PRML-系列一之1.2.2~1.2.3
期望和方差 涉及概率最重要的操作是找到函数的加权平均值。在概率分布p(x)情况下函数f(x)的平均值称为f(x)的期望,并用E [f]表示。对于一个离散分布,它由下式给出: 使得平均值加权到不同x值的相应概率上。连续变量的情况下,期望用相应概率密度的积分表达: 对任意一种情况,如果我们给定一个有限的N个点,他们从概率分布或概率密度中得到,则期望可以近似为这些点上的有限和: 当我们翻译 2015-05-10 02:02:37 · 1228 阅读 · 0 评论 -
PRML-系列一之1.2.1
概率密度 除了考虑定义在离散事件上的概率外,我们也希望考虑连续变量的概率。我们的讨论限制到一个相对非正式的情况。如果真值变量x落在区间(x,x+Δx)上的概率由p(x)Δx且Δx→0给出,那么p(x)称为x上的概率密度,如图1.12。x位于区间(a,b)的概率由下式给出: 因为概率是非负的,并且x的值必须在实轴上,所以概率密度p(x)必须满足下面的两个条件: 根据变量的非线性变化,由于翻译 2015-05-09 14:26:51 · 817 阅读 · 0 评论 -
PRML-系列一之1.2
概率论 模式识别领域中一个关键概念是不确定性。通过噪声测量以及有限大小的数据集都会出现。概率论提供了不确定性量化和操纵统一的框架并形成模式识别的中心基础之一。当与决策论(在1.5节中讨论)结合时,给出所有可获得的信息,我们就能够得到最佳预测,即使这些信息可能不完整或不明确的。 我们通过考虑一个简单的例子来介绍概率论的基本概念。想象一下,我们有两个箱子,一红一蓝,红色箱子中我们有2个苹果和翻译 2015-05-09 00:25:41 · 774 阅读 · 0 评论 -
PRML-系列一之1.6
信息论 在本章中,我们讨论概率论和决策论的许多概念,他们是本书随后讨论的基础。我们通过引入一些信息论领域额外的概念来结束本章,这些概念也在模式识别和机器学习技术的发展中也是很有用的。再次,我们只关注关键的概念,并建议读者参考其他地方更详细的讨论(Viterbi和Omura,1979;Couver和Thomas,1991;MacKay,2003年)。 我们首先考虑一个离散型随机变量x并问当我们翻译 2015-05-14 22:54:55 · 1462 阅读 · 1 评论 -
PRML-系列一之1.6.1
相关熵和交互信息 到目前为止,我们已经介绍了一些信息论的概念,包括熵的关键概念。我们现在开始这些想法到模式识别。考虑未知分布p(x),假设我们用近似分布q(x)为期建模。为了发送x的值到接收器,如果我们用q(x)来构造编码方案,那么指定x值所需的平均信息附加量(假设我们选择了一个高效的编码方案)由下式给出 这被称为分布p(x)和q(x)之间的相对熵或Kullback-Leibler散度或KL翻译 2015-05-16 14:36:28 · 1069 阅读 · 0 评论 -
Stanley-系列一
介绍机器人挑战大赛是由国防部高级研究计划局DARPA在2003年发起的,这是为了鼓励在无人地面车辆导航上的创新。挑战的目标是开发出能够在越野地形上自动行驶的机器人,且比赛的路程是机器人从未行驶过的。第一场比赛奖金是100万美元,在2004年3月13日举行。它需要机器人导航142英里长的路程通过Mojave沙漠且不超过10个小时。 注册了107个队伍,比赛了15场,然而参与的机器人导航没有一个超过全部翻译 2015-05-30 16:05:53 · 1799 阅读 · 0 评论 -
深度学习(下)
卷积神经网络ConvNets用来处理有多个阵列形式的数据,例如彩色图象由三个二维阵列组成,包含三个颜色通道上的像素强度。许多数据形态都是多个阵列的形式:一维信号和序列,包括语言; 二维图像或音频频谱图;三维视频或立体图像。ConvNets有四个关键的想法,它利用了自然信号的性质:局部连接,共享权重,池和多层。一个典型ConvNet(图2)架构被构造为一系列阶段。前几个阶段由两个类型的层组成:卷积层和翻译 2015-06-01 01:02:14 · 1964 阅读 · 0 评论 -
Stanley-系列三
软件体系结构1、设计原则在2004年和2005年的挑战之前,DARPA透露给竞争者们一个信息,四轮驱动的皮卡有通过整个赛程的能力。这些公告建议成功完成挑战的创新点在于设计出智能驾驶的软件,而不是设计独特的汽车。本公告及2004年比赛中的顶级选手指导了我们斯坦福大学赛车队的设计理念:将自动导航作为软件问题。关于先前机器人架构的工作,Stanley的软件架构与著名的三层架构(Gat,1998年)有关联,翻译 2015-06-08 16:39:08 · 1205 阅读 · 0 评论 -
Stanley-系列二
汽车Stanley是基于一个柴油动力的大众途锐R5。途锐有四轮驱动(4WD),可变高度的空气悬挂和自动电子锁差速器。为了避免环境对汽车的影响,Stanley配备了防滑板和强化的前保险杠。一个自定义接口实现了直接电子驱动油门和刹车。连接到转向杆上的直流电机提供了电子转向控制。连接到齿轮切换器上的线性致动器控制汽车前进,倒退和停车(图4c)。汽车的数据(例如单个车轮的速度和转向角度)由感应器自动测量并通翻译 2015-06-02 23:37:35 · 1055 阅读 · 0 评论 -
PRML-系列二之2.2
多项变量 二进制变量可以描述两个可能值中取一个的量。然而,通常我们遇到离散变量是从K个可能的互斥状态中选取一个。虽然有各种不同的替代方式表达这种变量,但我们将很快看到一个特别方便的表示是1-of-K方案,其中变量由K维向量x表示,向量x中的一个元素xk等于1,并且其余元素等于0。例如,如果我们有一个K=6个状态的变量并且一个特定的变量观察值恰好对应于x3=1的状态,则x将被表示为: 注意向量翻译 2015-05-19 15:20:02 · 774 阅读 · 0 评论 -
PRML-系类二之2.1
二元变量 我们首先考虑一个二元随机变量x∈{0,1}。例如,x可以描述抛硬币的结果,其中x=1表示正面而x=0表示反面。我们可以想像,这是一个损坏的硬币,所以正面的概率并不一定等于反面的概率。x=1的概率由参数μ表示 其中,由此得到。x上的概率分布可以写作: 这就是伯努利分布。很容易证实它是归一化的并且均值和方差为: 现在假设我们有观测值x的一个数据集D ={x1,,, xn翻译 2015-05-18 21:29:11 · 1101 阅读 · 0 评论