数学之美
文章平均质量分 78
ACdreamers
这个作者很懒,什么都没留下…
展开
-
贝叶斯学习及共轭先验
今天的主要任务是来理解共轭先验。最近在研究主题模型,里面提到了这个,所以有必要学习和掌握。 Contents 1. 共轭先验的概念 2. Beta分布和伯努力分布 3. Dirichlet分布和多项式分布 1. 共轭先验的概念 在贝叶斯统计理论中,如果某个随机变量原创 2015-10-13 22:25:41 · 15652 阅读 · 4 评论 -
矩阵求导解最小二乘问题
关于最小二乘问题的求解,之前已有梯度下降法,还有比较快速的牛顿迭代。今天来介绍一种方法,是基于矩阵求导来计算的,它的计算方式更加简洁高效,不需要大量迭代,只需解一个正规方程组。 在开始之前,首先来认识一个概念和一些用到的定理。矩阵的迹定义如下 一个的矩阵的迹是指的主对角线上各元素的总和,记作。即原创 2015-03-27 00:44:12 · 29120 阅读 · 18 评论 -
最小二乘的概率解释
在线性回归中,我们以最小二乘来作为损失函数,然后使得这个损失函数的值最小。那么为什么会选择最小二乘而不是其它的指标呢? 今天就用概率方面的知识来解释。首先,设 其中是样本的误差纠正量。由于我们目的是训练出合适的参数,使得的绝对值尽量小,那么可以确定大部分的值集中在0附近,而少数值离0较远,很明显,这可以看成随机变量服从高斯分布。即 那原创 2015-03-27 00:48:01 · 4589 阅读 · 3 评论 -
广义线性模型
今天我来介绍一种在机器学习中应用的比较多的模型,叫做广义线性模型(GLM)。这种模型是把自变量的线性预测函数当作因变量的估计值。在机器学习中,有很多模型都是基于广义线性模型的,比如传统的线性回归模型,最大熵模型,Logistic回归,softmax回归,等等。今天主要来学习如何来针对某类型的分布建立相应的广义线性模型。 Contents 1. 广义线性模型的认识原创 2015-03-27 00:49:27 · 46130 阅读 · 4 评论 -
softmax回归
在上一篇文章中,讲述了广义线性模型。通过详细的讲解,针对某类指数分布族建立对应的广义线性模型。在本篇文章中,将继续来探讨广义线性模型的一个重要例子,它可以看成是Logistic回归的扩展,即softmax回归。 我们知道Logistic回归只能进行二分类,因为它的随机变量的取值只能是0或者1,那么如果我们面对多分类问题怎么办?比如要将一封新收到的邮件分为垃圾邮件,个人邮件,还是工作原创 2015-03-27 00:55:16 · 48459 阅读 · 17 评论 -
非负矩阵分解(NMF)
通常的矩阵分解会把一个大的矩阵分解为多个小的矩阵,但是这些矩阵的元素有正有负。而在现实世界中,比如图像,文本等形成的矩阵中负数的存在是没有意义的,所以如果能把一个矩阵分解成全是非负元素是很有意义的。在NMF中要求原始的矩阵的所有元素的均是非负的,那么矩阵可以分解为两个更小的非负矩阵的乘积,这个矩阵有且仅有一个这样的分解,即满足存在性和唯一性。 Contents 1原创 2015-03-27 01:00:45 · 58110 阅读 · 11 评论 -
布雷格曼散度
今天来讲一个比较重要的概念,叫做Bregman Divergence,即布雷格曼散度,是一种类似距离度量的方式,用于衡量两者之间差异的大小。接下来会重点进行探讨 Contents 1. 布雷格曼散度的认识 2. 布雷格曼散度的性质 3. 布雷格曼散度与指数分布族 1. 布雷格曼散度的认识 Bregman散度是损失或者失真函数。考原创 2015-03-27 01:28:49 · 14047 阅读 · 0 评论 -
BFGS算法
今天,我来讲一种在机器学习中常用到的优化算法,叫做BFGS算法。BFGS算法被认为是数值效果最好的拟牛顿法,并且具有全局收敛性和超线性收敛速度。那么接下来将会详细讲解。 Contents 1. 什么是拟牛顿法 2. 拟牛顿法原理 3. DFP算法原理 4. BFGS算法原理 5. BFGS算法的实现 1. 什么是拟牛顿法原创 2015-03-27 01:55:41 · 65717 阅读 · 12 评论 -
L-BFGS算法
前面的文章中,讲述过BFGS算法,它是用来求解最优化问题的,在这个算法中,相对于普通的牛顿迭代法有很大的改进。链接:http://blog.csdn.net/acdreamers/article/details/44664941。在BFGS算法中,仍然有缺陷,比如当优化问题规模很大时,矩阵的存储和计算将变得不可行。为了解决这个问题,就有了L-BFGS算法。 Contents原创 2015-03-29 18:12:23 · 27170 阅读 · 4 评论 -
蒙特卡洛算法
今天开始研究Sampling Methods,接下来会分为四部分进行讲解。本文是开篇文章,先来讲讲蒙特卡洛算法。 Contents 1. 蒙特卡洛介绍 2. 蒙特卡洛的应用 3. 蒙特卡洛积分 1. 蒙特卡洛介绍 蒙特卡罗方法(Monte Carlo method),也称统计模拟方法,是二十世纪四十年代中期由于科学技术的原创 2015-04-12 17:23:05 · 67427 阅读 · 8 评论 -
相对熵(KL散度)
今天开始来讲相对熵,我们知道信息熵反应了一个系统的有序化程度,一个系统越是有序,那么它的信息熵就越低,反之就越高。下面是熵的定义 如果一个随机变量的可能取值为,对应的概率为,则随机变量的熵定义为 有了信息熵的定义,接下来开始学习相对熵。 Contents 1. 相对熵的认识 2. 相对熵的性质 3. 相原创 2015-03-26 22:35:30 · 82491 阅读 · 9 评论