数学之美
文章平均质量分 75
s.feng
计算机视觉,C++
展开
-
Welford算法解决layernorm问题
背景在利用框架做计算的时候,经常会遇到layernorm的问题,不知道有没有小伙伴发现,当fp32切到fp16的时候,有时候直接结果为nan或者为inf了,为此需要研究一下。原理其实layernorm的核心就是计算方差,定义的公式如下,但是实际上考虑到计算效率的问题,我们会采用FP32的公式来实现,具体可以节省多少计算量,有兴趣可以试一下,不过当把fp32强行切换到fp16的时候,就会出现误差,导致位置错误。welford算法之前很多框架采用的都是上面的fp32的算法,下面来看看一种新的计算方式原创 2022-02-10 12:28:22 · 2264 阅读 · 0 评论 -
通俗理解最大似然估计,最大后验概率估计,贝叶斯估计
以下所有例子都是抛硬币问题,在两次试验中出现正,反两次结果,求该硬币出现正面的概率p,最大似然估计: 假设分布为伯努利分布,也就是二项分布,出现正面的概率是p,则下次出现上述实验结果现象的概率是:L=P(1-p),如何才能让下次出现相同结过的概率最大?自然是L越大越好,则p=0.5,所以极大似然估计的核心思想是求参数为何值时才能使样本出现的概率最大。最大后验概率估计:我们...原创 2017-05-04 15:41:55 · 3467 阅读 · 0 评论 -
卷积加速
卷积转为矩阵乘法目前CPU和GPU中的数学库,对于矩阵乘法的优化有非常的好,所以我们可以将卷积转化为矩阵乘法就可以实现加速。卷积转为FFT计算学过信号处理的同学对于傅里叶变换很熟悉,就是将时域信号转为频域信号,计算就简单的多,然后再逆变换就可以啦...原创 2020-09-17 15:14:31 · 665 阅读 · 0 评论 -
傅立叶级数和傅立叶变换是什么关系?
周期信号傅立叶级数意思是信号可以化为很多余弦函数的和,对应每个余弦函数的系数就是画出来频谱的大小,而非周期傅立页可以看成周期无限大的周期函数,如果也用傅立叶级数表示的话(这里用许多复数和而不用余弦函数,想具体了解可以百度),那么将会发现复数幅度基本为零啦,没法看到各个频率的变化,但是他们虽然很小但是有变化啊,所以我们对其系数的表达式乘个时间T,这样就系数大小就不是零啦,的到的频谱则是频谱密度,可以...原创 2016-11-10 14:54:08 · 1732 阅读 · 0 评论 -
怎样通俗易懂地解释卷积?
也谈卷积,假如你被别人打了一拳,这一拳会在1小时疼痛消失[这一拳轻重不同,所以虽说都在一个小时消失,但是在1个小时内感觉的疼痛也不一样。设最轻(注意)的一拳在一小时内的疼痛感觉函数为h(t),二倍的最轻力度打你,疼痛感就是2h(t)对吧,f(n)倍最轻力度,就是f(n)h(t)了吧],当别人在一小时内在第一秒,第二秒,第三秒.....第六十秒……动武时,可设f(n)为每次的轻重函数,这就是说在0到...原创 2016-11-10 14:56:17 · 696 阅读 · 0 评论 -
通俗理解P和NP
通俗理解P和NP上篇博文谈及NP,有博友认为我文中没有解释NP的概念,是不妥的,这次对P和NP进行详细的讲解,使得非计算机专业的理工类也能看懂,计算机专业的当然就更能透彻地看懂了。要计算或解决一个问题,该问题通常有一个大小规模,用n表示。例如,若分析计算一个二进制数,该数有多少位,这个位就是其大小规模。再比如,从n个数里面找出最大的那个数,这个n就是该问题的规模大小。怎么找?我...转载 2016-11-10 15:00:47 · 7082 阅读 · 1 评论 -
自相关函数的理解
作者:sky sailing在学概率统计之前,我们学习的都是确定的函数。概率统计讨论了一次取值时获得的值是不确定的,而随机过程讨论了不确定会发生哪个时间函数。每个小x(t)函数(样本函数)就是实际发生的一个表达式确定的函数,对每个小x(t)的处理,都是与之前确定函数的处理方法相同的,但是由于我们没法确定某次究竟发生哪个确定表达式的小x(t),所以我们只能研究发生哪种情况的概率大些,或者当这...转载 2016-12-13 14:42:08 · 99775 阅读 · 20 评论