
工程数学
工科中使用的数学
Wanderer001
AR/VR软件与硬件技术:图像增强、图像分类、语义分割、目标检测、目标跟踪、风格迁移、强化学习、三维重建、SLAM
展开
-
什么是流形?
因此,举例来说,一个球是连通的,但是一个集合的点在两个球体上的流形就不是连通的了。例如,一个球体是紧凑的。例如,一个物体的旋转的对称群是一个李群,因为旋转是一个 "平滑 "的变换。因此,在三维空间中,流形M是一个形状,从一个站在其表面的生物的角度看,它看起来像一个 "平面"。例如,如果A点和B点之间的距离是x轴上的x,y轴上的y和z轴上的z,那么这两点之间距离的平方就是x^2+y^2+z^2。在现代物理学课程中,我意识到了理解形状的重要性,它们为有趣的物理学提供了舞台,决定了任何物理系统的对称性和动态性。原创 2023-10-10 16:13:34 · 555 阅读 · 0 评论 -
Iverson Bracket
为什么要边框回归?什么是边框回归?边框回归怎么做的?边框回归为什么宽高,坐标会设计这种形式?为什么边框回归只能微调,在离Ground Truth近的时候才能生效?为什么要边框回归?为什么要边框回归? 对于上图,绿色的框表示Ground Tru...原创 2022-02-20 12:03:34 · 691 阅读 · 0 评论 -
convexHull实现
convexHull介绍凸包(Convex Hull)问题表示如下:在一个实数向量空间V中,对于给定集合X,所有包含X的凸集的交集S被称为X的凸包。X的凸包可以用X内所有点(X1,…Xn)的凸组合来构造。比较常用,也是实验中遇到的是二维平面上的凸包:给定平面上一个点集,凸包就是将最外围的点连接起来构成的凸多边形,它能包含点集中所有的点。可以想象成一条刚好包着所有点的橡皮圈。注:这里对于边界的处理方法是舍弃位于边界(不包括顶点)上的点,如上图中的点9我们这里舍去,它不属于凸包,但它被凸包包围。思原创 2022-03-03 12:04:55 · 728 阅读 · 0 评论 -
Wasserstein距离
对于绝大多数的机器学习问题,尤其是预测问题和隐变量模型(latent factor model)中,学习到数据集背后所服从的分布往往是模型所要解决的最终问题。在变分推断(variational inference)等领域中,往往会先从一个简单的分布引入,比如高斯分布或者多项式分布等;希望由这个简单的分布模型能不断学习进而逼近最终想要的、符合数据背后规律的分布,注意这时候的分布往往可能在形状上与初始假设的分布有所差异。KL散度和JS散度在学习Wasserstein距离,首先回顾在机器学习算法中,衡量两原创 2022-03-07 14:24:17 · 12290 阅读 · 0 评论 -
Metropolis 采样算法
前言Metropolis 采样算法解决的问题是:从一个复杂的目标分布获取近似的样本。马尔科夫链概念描述X是一个随机变量,其可能的取值来自于集合,X在离散时刻t的取值为Xt 。若X 随时间变化的转移概率仅仅依赖于其当前时刻的取值Xt,即那么随机变量 X 随时间变化的过程是一个马尔科夫过程,X 在[0,t]时间内随时间变化生成的序列 (X0,X1,⋯,Xt) 就是一个马尔科夫链。转移概率矩阵设随机变量 X在任意时刻t+1的取值为 si 的概率为 πt+1i,即 πt.原创 2022-03-31 13:00:43 · 2869 阅读 · 0 评论 -
Wasserstein距离
Wasserstein距离Wasserstein距离度量两个概率分布之间的距离,定义如下:Π(P1,P2)是P1和P2分布组合起来的所有可能的联合分布的集合。对于每一个可能的联合分布γ,可以从中采样(x,y)∼γ得到一个样本x和y,并计算出这对样本的距离||x−y||,所以可以计算该联合分布γ下,样本对距离的期望值E(x,y)∼γ[||x−y||]。在所有可能的联合分布中能够对这个期望值取到的下界infγ∼Π(P1,P2)E(x,y)∼γ[||x−y||]就是Wasserstein距离。直观上可原创 2022-04-05 10:41:05 · 2250 阅读 · 0 评论 -
JS散度(Jensen-Shannon)
JS散度(Jensen-Shannon)JS散度度量了两个概率分布的相似度,基于KL散度的变体,解决了KL散度非对称的问题。一般地,JS散度是对称的,其取值是0到1之间。定义如下:KL散度和JS散度度量的时候有一个问题:如果两个分配P,Q离得很远,完全没有重叠的时候,那么KL散度值是没有意义的,而JS散度值是一个常数。这在学习算法中是比较致命的,这就意味这这一点的梯度为0。梯度消失了。...原创 2022-04-06 10:13:19 · 3802 阅读 · 1 评论 -
随机变量a和b相互独立且都服从均匀分布U[0,1],求max(a,b)的期望。
答:均匀分布的概率密度函数为: 因为a,b独立,所以二维随机变量(a,b)的概率密度函数为: 于是根据期望值公式可以得到: 又有:(1)当a>b时,(2)当b>a时,综上所述:...原创 2022-04-11 11:57:29 · 5246 阅读 · 0 评论 -
正规方程推导详解
当我们在求解梯度下降算法的时候,经常会用到正规方程来求解w的值,这个时候就用到正规方程来求解是最快的方法,但是正规方程又是怎么来的呢?我们来看看:首先我们设我们的损失函数为MSE train,那么这个时候我们只需要对其求解偏导就好了,于是我们有∇ w MSE train = 0 。具体推导过程如下如图所示,这里只做字母的解说,括号里的(train)代表的是训练集:我们可以看到第一步我们首先把...原创 2022-05-20 12:58:09 · 804 阅读 · 0 评论 -
krylov方法
Krylov方法是一种 “降维打击” 手段,有利有弊。其特点一是牺牲了精度换取了速度,二是在没有办法求解大型稀疏矩阵时,他给出了一种办法,虽然不精确。假设你有一个线性方程组:Ax=b其中A是已知矩阵,b是已知向量,x是需要求解的未知向量。当你有这么个问题需要解决时,一般的思路是直接求A的逆矩阵,然后x就出来了:x=A^{-1}b但是,如果A的维度很高,比方说1000*1000的矩...原创 2022-05-25 16:11:23 · 1639 阅读 · 1 评论 -
Lebesgue可测与Borel可测
Borel测度就是定义在Borel集上的Lebesgue测度,Lebesgue测度是Borel测度的完备化,具体地说,每个Lebesgue可测集都是一个Borel集和某个零测集的并。原创 2022-05-19 13:42:43 · 5050 阅读 · 0 评论 -
判断目标函数的凹凸性
参考 判断目标函数的凹凸性 - 云+社区 - 腾讯云原创 2022-05-21 13:16:48 · 1753 阅读 · 0 评论 -
Lipschitz连续
Lipschitz(利普希茨)连续定义:有函数f(x),如果存在一个常量K,使得对f(x)定义域上(可为实数也可以为复数)的任意两个值满足如下条件: 那么称函数f(x)满足Lipschitz连续条件,并称K为f(x)的Lipschitz常数。Lipschitz连续比一致连续要强。...原创 2022-05-24 13:07:19 · 5172 阅读 · 0 评论 -
Jacobin和Hessian矩阵
有时我们需要计算输入和输出都为向量和函数的所有偏导数。包含所有这样的偏导数的矩阵被称为Jacobian矩阵。具体来说,如果我们有一个函数,的Jacobian矩阵定义为。有时,我们也对导数的导数感兴趣,即二阶导数(second derivative)。例如,有一个函数,的一阶导数(关于)关于的导数记为为。二阶导数告诉我们,一阶导数(关于)关于的导数记为。在一维情况下,我们可以将为。二阶导数告诉我们,...原创 2022-05-26 08:41:32 · 907 阅读 · 0 评论 -
JS散度(Jensen-Shannon)
JS散度相似度衡量指标。现有两个分布和,其JS散度公式为:原创 2022-05-30 12:59:14 · 3623 阅读 · 0 评论 -
凸优化和非凸优化的区别
数学中最优化问题的一般表述是求取,使,其中是n维向量,是的可行域,是上的实值函数。凸优化问题是指是闭合的凸集且是上的凸函数的最优化问题,这两个条件任一不满足则该问题即为非凸的最优化问题。其中,是凸集是指对集合中的任意两点,有,即任意两点的连线段都在集合内,直观上就是集合不会像下图那样有“凹下去”的部分。至于闭合的凸集,则涉及到闭集的定义,而闭集的定义又基于开集,比较抽象,不赘述,这里可以简单...原创 2022-06-01 12:36:45 · 3301 阅读 · 0 评论 -
数学符号Span的含义
Span的概念比较好理解,就是若干个向量通过线性组合得到的一个向量空间(满足向量空间的所有要求)。Span列向量是矩阵中所有的列span成的空间。S为一向量空间V(附于体F)的子集合。所有S的线性组合构成的集合,称为S所张成的空间,记作Span(S)。在数学分支线性代数之中,向量空间中一个向量集的线性生成空间(Linear Span,也称为线性包 Linear Hull),是所有包含这个集......原创 2022-06-04 14:04:30 · 22487 阅读 · 0 评论 -
矩阵求导、几种重要的矩阵及常用的矩阵求导公式
一、矩阵求导 一般来讲,我们约定x=(x1,x2,...xN)T,这是分母布局。常见的矩阵求导方式有:向量对向量求导,标量对向量求导,向量对标量求导。1、向量对向量求导2、标量对向量求导3、向量对标量求导其他的可以参考wiki:维基百科矩阵求导公式二、几种重要的矩阵1、梯度(Gradient)2、雅克比矩阵(Jacobian matrix)......原创 2022-06-04 14:04:40 · 779 阅读 · 0 评论 -
Catalan数
Catalan数一瞥:关于Catalan,这是一个特殊的数列,可以方便求解许多问题。这里,先给出Catalan数的通项公式,再举例进行进一步的分析:Cat_n = \frac{1}{n+1}C_{2n}^n。先分析它的递推关系:题目:在一个有n+2条边的多边形中,我们可以画出n-1条不相交的对角线将多边形分为n个三角形,设所有满足条件的方案数是h_n,定义h_0=1,求h_2、h_4......原创 2022-06-06 16:25:08 · 734 阅读 · 0 评论 -
Tukey法
在介绍Tukey方法前,首先了解学生化极差分布。在概率论和统计学中,学生化极差分布是极差的抽样分布。该分布是一种连续型概率分布,用于在样本量较小且总体标准差未知的情况下估计正态分布总体的极差。假设要比较的组数为k,那么在零假设成立的条件下,下面的随机变量服从学生化极差分布。 .........原创 2022-06-07 17:57:21 · 5736 阅读 · 0 评论 -
笛卡尔乘积
笛卡尔乘积笛卡尔(Descartes)乘积又叫直积。设A和B是两个集合,A到B的笛卡尔积用A×B表示,它是所有形如(a,b)的有序对作为元素的组合,其中a∈A,b∈B。笛卡尔积的符号化为:A×B={(x,y)|x∈A∧y∈B}例:假设集合A=a,b,集合B=0,1,2,则两个集合的笛卡尔积为(a,0),(a,1),(a,2),(b,0),(b,1), (b,2)。......原创 2022-06-12 20:56:21 · 2523 阅读 · 0 评论 -
Hoeffding不等式及其在机器学习中的应用
考虑二分类问题和真实函数, 假定基分类器的错误率为, 即对每个基分类器有 (1)假设集成通过简单投票法结合个基分类器, 若有超过半数的基分类器正确, 则集成分类就正确:...原创 2022-06-10 20:37:11 · 1015 阅读 · 1 评论 -
长尾分布,重尾分布(Heavy-tailed Distribution)
Zipf分布:Zipf分布是一种符合长尾的分布:就是指尾巴很长的分布。那么尾巴很长很厚的分布有什么特殊的呢?有两方面:一方面,这种分布会使得你的采样不准,估值不准,因为尾部占了很大部分。另一方面,尾部的数据少,人们对它的了解就少,那么如果它是有害的,那么它的破坏力就非常大,因为人们对它的预防措施和经验比较少。也要所谓的二八法则。............原创 2022-06-17 22:41:24 · 3204 阅读 · 0 评论 -
拓普利兹toeplitz矩阵
简介托普利兹矩阵,简称为T型矩阵,它是由Bryc、Dembo、Jiang于2006年提出的。托普利兹矩阵的主对角线上的元素相等,平行于主对角线的线上的元素也相等;矩阵中的各元素关于次对角线对称,即T型矩阵为次对称矩阵。简单的T形矩阵包括前向位移矩阵和后向位移矩阵。在数学软件Matlab中,生成托普利兹矩阵的函数是:toeplitz(x,y)。它生成一个以 x 为第一列,y 为第一行的托普利兹矩.........原创 2022-06-17 22:41:33 · 2462 阅读 · 0 评论 -
拉格朗日乘子法和KKT条件
求解最优化问题中,拉格朗日乘子法和KKT条件是两种最常用的方法。在有等式约束时使用拉格朗日乘子法,在有不等式约束时使用KKT条件。这个最优化问题指某一函数在作用域上的全局最小值(最小值与最大值可以相互转换)。最优化问题通常有三种情况(这里说两种):1. 无约束条件求解办法是求导等于0得到极值点。将结果带回原函数验证。2、等式约束条件设目标函数f(x),约束条件hk(x),m......原创 2022-06-18 21:07:30 · 1321 阅读 · 0 评论 -
拉普拉斯(Laplace)分布
Laplace分布的概率密度函数的形式是这样的: 一般μ的取值为0,所以形式如下:它是由两个指数函数组成的,所以又叫做双指数函数分布(double exponential distribution)均值和方差均值的求解,若X的概率密度函数为f(X),那么X的均值为,代入以后可以发现里面的积分函数为奇函数,所以均值为0。方差根据,因为后面一项为0,所以主要求前一......原创 2022-07-23 23:11:04 · 5057 阅读 · 1 评论 -
Student‘s t分布
1.St(x|u,w,v)是由一个单变量高斯分布N(x|u,t^-1)和一个gamma分布Gam(t|a,b)相乘得到的分布函数。v=2a,w=a/b2.当v->无穷时,学生分布变为高斯分布,当接近1时,变为Cauchy 分布。3.学生t分布具有很好的健壮性,这是由于在其概率密度函数中没有指数的限制,所以在有噪声数据的时候会显示很好的鲁棒性。......原创 2022-07-26 09:19:58 · 2867 阅读 · 0 评论 -
如何判断函数极值点与拐点
一、极值点极值的必要条件: 极值的第一充分条件:且在两侧变号 极值的第二充分条件:且(为极小值,为极大值) 极值的第三充分条件:设在处最低阶不为零的导数的阶为,若为偶数是极值点。若为奇数是不是极值点二、拐点函数的拐点可理解为导数的极值点,因此上述关于极值点的结论都可“稍加改变”后用于判断拐点,下面是一些常用结论:拐点的必要条件: 拐点的充分条件:且在左右两侧变号 利用三阶导...原创 2022-09-21 15:04:30 · 40925 阅读 · 6 评论 -
深度模型中的优化(三)、梯度下降及其优化
目录一、梯度与方向导数二、梯度下降三、Jacobian和Hessian函数四、随机梯度下降一、梯度与方向导数偏导数刻画了函数沿坐标轴方向的变化率,但有些时候还不能满足实际需求。为了研究函数沿着任意方向的变化率,就需要用到方向导数。设函数在点的某一个邻域内有定义。自点引射线,设轴正向到射线的转角为,并设为上的另一点,且。这里规定,逆时针方向旋转生成的角是正角,顺时针方向生...原创 2022-09-21 15:08:22 · 1125 阅读 · 0 评论 -
KL散度与交叉熵
一、熵和互信息香农熵(Shannon entropy)用来对概率分布中不确定性总量进行量化: 也记作H(P)。换言之,一个分布的香农熵是指遵循这个分布的时间所产生的期望的信息总量。它给出了对依据概率分布P生成的符号进行编码所需的比特数在平均意义上的下界。哪些接近确定性的分布(输出几乎可以确定)...原创 2022-09-22 16:12:22 · 487 阅读 · 0 评论 -
常见向量范数和矩阵范数及其MATLAB实现
1、向量范数1-范数:,即向量元素绝对值之和,matlab调用函数norm(x, 1)。2-范数:,Euclid范数(欧几里得范数,常用计算向量长度),即向量元素绝对值的平方和再开方,matlab调用函数norm(x, 2)。∞-范数:,即所有向量元素绝对值中的最大值,matlab调用函数norm(x, inf)。-∞-范数:,即所有向量元素绝对值中的最小值,matlab调...原创 2022-12-06 17:31:00 · 9027 阅读 · 1 评论 -
Iverson bracket
EtymologyNamed after Kenneth E. Iverson, who introduced this notation in his programming language APL.NounIverson bracket (plural Iverson brackets)(mathematics) A notation that denotes a numbe...原创 2022-09-17 20:17:24 · 742 阅读 · 0 评论 -
范畴分布(Multinoulli 分布)
Multinoulli 分布, 指的也是单个离散型随机变量, 可以随机地取 k 个不同的状态, 在每个状态上的概率用 pi 来表示. 因此 Multinoulli 分布可以用一个 k−1 维的向量 p 表示, 因为这个分布只有 k−1 个自由度,。在 ML 中, Multinoulli分布常用来表示 classification 的 k个类, 而class之间一般是没有可比可计算性的, 因此我...原创 2022-09-21 15:07:15 · 3616 阅读 · 0 评论 -
如何从理论上评估算法的时间复杂度
一、时间复杂度的极限理论基础定义1:如果存在正常数和使得当时,则记为。定义2:如果存在正常数和使得当时,则记为。定义3:当且仅当且。定义4:如果且,则。这四个定义的含义为:这四个定义的目的是要在函数间建立一种相对的级别。给定两个函数,通常存在一些点,在这些点上的一个函数的值小于另一个函数的值,因此,像这样的声明是没有什么意义的。于是,比较相对增长率(rela...原创 2022-09-27 09:05:04 · 1226 阅读 · 1 评论 -
矩阵的Hadamard乘积
两个矩阵中对应元素的乘积,称为元素对应乘积(element-wise product)或者Hadamard乘积(Hadamard product),记为。原创 2022-09-10 14:36:50 · 5895 阅读 · 0 评论 -
偏导数与全导数
1.偏导数代数意义偏导数是对一个变量求导,另一个变量当做数对x求偏导的话y就看作一个数,描述的是x方向上的变化率对y求偏导的话x就看作一个数,描述的是y方向上的变化率几何意义对x求偏导是曲面z=f(x,y)在x方向上的切线对y求偏导是曲面z=f(x,y)在x方向上的切线这里在补充点.就是因为偏导数只能描述x方向或y方向上的变化情况,但是我们要了解各个方向上的情况,所以后面有方向导...原创 2022-09-10 14:36:24 · 5392 阅读 · 0 评论 -
Cholesky分解
Cholesky分解是一种分解矩阵的方法, 在线性代数中有重要的应用。Cholesky分解把矩阵分解为一个下三角矩阵以及它的共轭转置矩阵的乘积(那实数界来类比的话,此分解就好像求平方根)。与一般的矩阵分解求解方程的方法比较,Cholesky分解效率很高。Cholesky是生于19世纪末的法国数学家,曾就读于巴黎综合理工学院。Cholesky分解是他在学术界最重要的贡献。后来,Cholesky参加了...原创 2022-09-10 14:36:20 · 2544 阅读 · 0 评论 -
矩阵的奇异值分解
奇异值分解(singular value decomposition, SVD),是将矩阵分解成奇异值(singular vector)和奇异值(singular value)。通过奇异值分解,我们会得到一些与特征分解相同类型的信息。然而,奇异值分解有更广泛的应用,每个实数矩阵都有一个奇异值,但不一定都有特征分解。例如,非方阵的矩阵没有特征分解,这时我们只能使用奇异值分解。我们使用特征分解去分...原创 2022-09-02 10:23:16 · 2120 阅读 · 0 评论 -
Moore-Penrose伪逆
对于非方阵矩阵而言,其逆矩阵没有定义。假设在下面的问题中。我们希望通过矩阵A的左逆B来求解线性方程: 等式两边左乘左逆B后,我们得到: 取决于问...原创 2022-09-02 10:23:21 · 1728 阅读 · 0 评论