数学
文章平均质量分 58
记录编程工作中遇到的数学知识
CtrlZ1
浮天水送无穷树,带雨云埋一半山。
展开
-
200字学会辗转相除法原理详解
m%n=t,其实t就是(a%c)*b,很自然m和n的最大公约数,其实就是t=(a%c)*b和n=c*b的最大公约数。由于c>a%c,因此m重新设为n,n设为较小的那个数,即t,然后循环这个过程,即a‘=c,c’=a%c继续这个过程,同样a’>c’且二者不存在非0以外的公约数。前面说过a’>c’且二者不存在非0以外的公约数,那么如果除尽了则意味着c’=1,那么意味着n=c’*b=1*b=b,得到最终结果。原理:设m>n,m=a*b,n=c*b,设b为最大公约数,自然有a>c且二者不存在非0以外的公约数。原创 2022-12-13 15:16:26 · 248 阅读 · 0 评论 -
最优传输论文(十五):Large scale optimal transport and mapping estimation论文原理
目录摘要介绍最优传输的背景蒙日问题Kantorovich 松弛正则化的OTLarge-Scale Optimal Transportdual stochastic approach正则化OT计划的收敛性最优映射估计数值实验对偶VS半对偶的速度比较大规模领域适应生成性最优运输(GENERATIVE OPTIMAL TRANSPORT (GOT))结论摘要本文提出了一种新的两步方法来解决从一个分布到另一个分布的最优映射的基本问题。首先,我们学习一个最优运输(OT)计划,它可以被认为是两个分布之间的一对多映原创 2021-07-20 13:54:28 · 998 阅读 · 3 评论 -
关于测度和概率测度
回顾一下。图图原创 2021-07-18 21:49:59 · 397 阅读 · 0 评论 -
最通俗易懂的核函数及相关知识讲解
目录核函数是用来干嘛的?为什么非要在高维空间计算内积?提到的映射函数是什么意思?与核函数有什么关系?高斯核函数是如何映射到无限维度的?一个函数成为核函数的条件核函数与再生核希尔伯特空间的关系希尔伯特空间再生希尔伯特空间参考网址核函数是用来干嘛的?核函数能对低维数据进行某种低成本的运算使得运算结果等于高维空间映射函数的内积。即给我两个低维空间样本xxx,x′x'x′,映射函数ϕ(x)ϕ(x)ϕ(x),那么k(x,x′)=<ϕ(x),ϕ(x′)>k(x,x')=<ϕ(x),ϕ(x')原创 2021-07-14 15:52:56 · 3939 阅读 · 1 评论 -
矩的数学概念
矩原本是一个物理学上的概念,拓展到统计学、概率学上则有着不同的含义。从计算机的角度出发,不需要太深度的了解它的物理意义,但是概率学上的意义要明白。只要记住一句话足矣,那就是一个随机变量的分布,可以由1到无穷阶的矩唯一确定,每一阶矩都从某个角度去描述了这个随机变量分布的性质。例如,网上比较常见的,从一阶矩开始,分别代表随机变量的均值、方差、偏态、峰度等等,他们大多只讲了这些分别是什么,但是咱们知道是什么有什么用?咱们要明白矩这个名词从计算机、数学领域所代表的意义是什么,说白了就是上面的那句话,每一阶矩都.原创 2021-07-13 15:42:06 · 1653 阅读 · 0 评论 -
Domain Shift介绍
首先需要知道著名的贝叶斯公式:p(x,y)=p(x∣y)p(y)=p(y∣x)p(x)p(x,y)=p(x|y)p(y)=p(y|x)p(x)p(x,y)=p(x∣y)p(y)=p(y∣x)p(x)Domain Shift主要有三种情况,分别是由于输入的边缘概率分布p(x)p(x)p(x)、输出标签的边缘概率分布p(y)p(y)p(y)、对应的条件概率分布p(x∣y)p(x|y)p(x∣y)或者p(y∣x)p(y|x)p(y∣x)(后验分布)不一致导致的。Covariate Shift:输入的边缘概.原创 2021-07-10 15:36:39 · 3325 阅读 · 0 评论 -
先验概率与后验概率
给出多对因果关系,比如x1→y,x2→y,先验概率是p(y)p(y)p(y),后验概率是p(y∣x1)p(y|x1)p(y∣x1)或者p(y|x2)。比如,给你一张图片,让你区分是猫咪还是狗子,即y=猫咪或者狗子,先验概率是p(猫咪)=1/2,p(狗子)=1/2,很自然,你目前还没看到图片,对图片是啥一无所知,那自然是一半一半的概率。然后给你张图片,你有8成的把握这是狗子,那就是p(狗子|图像)=0.8,即p(y|x)=0.8。这就是后验概率,即已经建立在一定经验的基础上的概率。更多例..原创 2021-07-10 14:54:45 · 436 阅读 · 0 评论 -
雅克比迭代法和高斯-塞德尔迭代法
https://wenku.baidu.com/view/ac6a0d89d0d233d4b04e6905.html另外附上迭代收敛的条件:且越小,收敛的越快。原创 2021-05-27 10:19:16 · 1826 阅读 · 0 评论 -
【转】Lasso回归算法: 坐标轴下降法与最小角回归法小结
原文:https://www.cnblogs.com/pinard/p/6018889.html这里补充一下,一直没想明白,两个向量的角平分线我还可以理解,多个向量的话,共同角分线是啥意思啊?因为只是想了解一下这个算法,暂时没有研读原文的打算,就先放到这里。...转载 2021-05-26 21:21:38 · 220 阅读 · 0 评论 -
关于坐标下降法(Coordinate Descent)你没理解的事情
目录概念原理坐标下降法与全局最小值特点概念见下:其实就是先固定其他相关变量的值,只对某个未知变量进行优化。原理坐标下降法与全局最小值那么问题来了,假如我们寻找到了一个点x使得在所有单个坐标轴上f(x)都最小,是否证明我们找到了全局最小值点?这个问题要分情况来看:a. 若f(x)是可微的凸函数,答案是Yes,因为f(x)在任何坐标方向上求偏导都是0,并且对于凸函数来说,局部极小值就是全局最小值:b. 若f(x)是不可微的凸函数,答案是No,我们可以很容易原创 2021-05-26 16:44:33 · 1576 阅读 · 1 评论 -
关于近端梯度下降法你不知道的事
目录介绍梯度下降法回顾近端梯度下降法加速的近端梯度法介绍近端梯度下降法是众多梯度下降 (gradient descent) 方法中的一种,其英文名称为proximal gradident descent,其中,术语中的proximal一词比较耐人寻味,将proximal翻译成“近端”主要想表达"(物理上的)接近"。与经典的梯度下降法和随机梯度下降法相比,近端梯度下降法的适用范围相对狭窄。对于凸优化问题,当其目标函数存在不可微部分(例如目标函数中有 [公式] -范数或迹范数)时,近端梯度下降法才会派上用原创 2021-05-26 10:29:17 · 1902 阅读 · 1 评论 -
牛顿法介绍
目录牛顿法介绍推导海森矩阵、泰勒公式、梯度下降法牛顿法特点牛顿法介绍首先牛顿法是求解函数值为0时的自变量取值的方法。如果你看不懂这句没关系,继续往下看就好。利用牛顿法求解目标函数的最小值其实是转化成求使目标函数的一阶导为0的参数值。这一转换的理论依据是,函数的极值点处的一阶导数为0。其迭代过程是在当前位置x0求该函数的切线,该切线和x轴的交点x1,作为新的x0,重复这个过程,直到交点和函数的零点重合。此时的参数值就是使得目标函数取得极值的参数值。其迭代过程如下:这里我们通过对上图迭代过程的描原创 2021-05-25 20:11:51 · 1973 阅读 · 0 评论 -
一阶梯度下降法及其弊端
目录什么是一阶梯度下降法推导过程弊端改进什么是一阶梯度下降法这里主要说一下所谓的一阶是什么意思,至于梯度下降法,我觉得点进来的同学们应该都知道它是什么,以及用处。如果不清楚,下面还会讲解。这里所谓的一阶就是指仅考虑一阶导数的梯度下降法(或者说只考虑梯度的梯度下降法,而没考虑曲率,即二阶导数)推导过程用泰勒公式来推导一阶梯度下降法的公式。首先带大家熟悉回顾一下泰勒公式:然后看一下我们的目标函数,以梯度下降法在深度学习中的应用为例,设L(θ)L(θ)L(θ)是损失函数,我们希望随着参数θθθ原创 2021-05-25 17:39:21 · 1313 阅读 · 0 评论 -
【转】LASSO回归与L1正则化 西瓜书
https://blog.csdn.net/BIT_666/article/details/80051737总结,lasso约束相比l2更能促进参数的系数解,然后求解lasso问题可以使用PGD(Proximal Gradient Descent)方法,而PGD方法可以适应软阈值函数(Soft Thresholding)来求解。...转载 2021-05-25 12:03:12 · 388 阅读 · 0 评论 -
数学日记-最小二乘法本质
数学日记系列用于记录编程生活中遇到的数学知识,防止遗忘,多有转载自大神们的博客,这里可能仅提供链接,还请看官移步。最小二乘法:https://www.zhihu.com/question/37031188原创 2021-03-04 20:46:23 · 116 阅读 · 1 评论