![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数学之美
文章平均质量分 87
得克特
深度学习 python
展开
-
黑塞矩阵-二阶偏导矩阵
黑塞矩阵原创 2022-07-05 19:42:00 · 1069 阅读 · 0 评论 -
用狄拉克函数来构造非光滑函数的光滑近似
文章目录狄拉克函数在机器学习中,我们经常会碰到不光滑的函数,但我们的优化方法通常是基于梯度的,这意味着光滑的模型可能更利于优化(梯度是连续的),所以就有了寻找非光滑函数的光滑近似的需求。事实上,本博客已经多次讨论过相关主题,比如《寻求一个光滑的最大值函数》、《函数光滑化杂谈:不可导函数的可导逼近》等,但以往的讨论在方法上并没有什么通用性。不过,笔者从最近的一篇论文《SAU: Smooth activation function using convolution with approximate ide转载 2022-02-22 19:40:41 · 631 阅读 · 0 评论 -
向量和矩阵乘法表示
Am×nBn×m=[∑i=1na1ibi1∑i=1na1ibi2⋯∑i=1na1ibim∑i=1na2ibi1∑i=1na2ibi2⋯∑i=1na2ibim⋮⋮⋱⋮∑i=1namibi1∑i=1namibi2⋯amibim]=[a1Tb1a1Tb2⋯a1Tbma2Tb1a2Tb2⋯a2Tbm⋮⋮⋱⋮amTb1amTb2⋯amTbm]=∑i=1n[a1ibi1a1ibi2⋯a1ibima2ibi1a2ibi2⋯a2ibim⋮⋮⋱⋮amibi1amibi2⋯amibim]=∑i=1naibiT\begin{a原创 2021-12-26 21:35:43 · 1921 阅读 · 0 评论 -
矩阵求导术
标量矩阵的求导,定义为∂f∂X=[∂f∂Xij]\frac{\partial f}{\partial X}=\left[\frac{\partial f}{\partial X_{ij}}\right]∂X∂f=[∂Xij∂f]即fff逐元素求导排成与XXX相同的矩阵。一元微积分中的导数与微分的关系df=f′(x)dxdf=f'(x)dxdf=f′(x)dx,多元微积分中的梯度(标量对向量的导数)也与微分有联系df=∑i=1n∂f∂xidxi=∂f∂xdxdf=\sum_{i=1}^n \frac转载 2021-11-16 23:32:13 · 420 阅读 · 0 评论 -
CS229 机器学习课程复习材料-概率论
本文是斯坦福大学CS229机器学习课程的基础材料,原始文件下载原文作者:Arian Maleki , Tom Do翻译:石振宇审核和修改制作:黄海广备注:请关注github的更新。CS229 机器学习课程复习材料-概率论文章目录CS229 机器学习课程复习材料-概率论概率论复习和参考1. 概率的基本要素1.1 条件概率和独立性2. 随机变量2.1 累积分布函数2.2 概率质量函数2.3 概率密度函数2.4 期望2.5 方差2.6 一些常见的随机变量3. 两个随机变量3.1 联合分布和边缘分布.转载 2021-11-09 18:10:02 · 105 阅读 · 0 评论 -
浅谈Transformer的初始化、参数化与标准化
前几天在训练一个新的Transformer模型的时候,发现怎么训都不收敛了。经过一番debug,发现是在做Self Attention的时候QKT\boldsymbol{QK^T}QKT之后忘记除以d\sqrt{d}d了,于是重新温习了一下为什么除以d\sqrt{d}d如此重要的原因。当然,Google的T5确实是没有除以d\sqrt{d}d的,但它依然能够正常收敛,那是因为它在初始化策略上做了些调整,所以这个事情还跟初始化有关。藉着这个机会,本文跟大家一起梳理一下模型的初始化、参数化和标准化等内容转载 2021-11-07 23:36:53 · 1568 阅读 · 0 评论 -
从几何视角来理解模型参数的初始化策略
文章目录信手拈来的正交其实也没那么难理解现在可以说初始化了还有一点小结转载对于复杂模型来说,参数的初始化显得尤为重要。糟糕的初始化,很多时候已经不单是模型效果变差的问题了,还更有可能是模型根本训练不动或者不收敛。在深度学习中常见的自适应初始化策略是Xavier初始化,它是从正态分布 N(0,2fanin+fanout)\mathcal{N}(0,\frac{2}{fan_{in}+fan_{out}})N(0,fanin+fanout2) 中随机采样而构成的初始权重,其中faninfan_{in}f转载 2021-10-30 12:17:03 · 219 阅读 · 0 评论 -
数学基础学习目录
正定矩阵和半正定矩阵协方差矩阵与多元正态分布原创 2021-10-24 11:42:58 · 128 阅读 · 0 评论 -
Markdown数学公式
内联和独行公式内联公式 $\sum_{i=0}^n i^2 = \frac{(n^2+n)(2n+1)}{6}$ \quad ∑i=0ni2=(n2+n)(2n+1)6\sum_{i=0}^n i^2 = \frac{(n^2+n)(2n+1)}{6}∑i=0ni2=6(n2+n)(2n+1)$$\sum_{i=0}^n i^2 = \frac{(n^2+n)(2n+1)}{6}$$ ∑i=0ni2=(n2+n)(2n+1)6\sum_{i=0}^n i^2 = \frac{(n^2+n)(原创 2021-10-23 21:19:30 · 239 阅读 · 0 评论 -
n维空间下两个随机向量的夹角分布
文章目录概率密度分布情况转载昨天群里大家讨论到了nnn维向量的一些反直觉现象,其中一个话题是“一般nnn维空间下两个随机向量几乎都是垂直的”,这就跟二维/三维空间的认知有明显出入了。要从理论上认识这个结论,我们可以考虑两个随机向量的夹角θ\thetaθ分布,并算算它的均值方差。概率密度首先,我们来推导θ\thetaθ的概率密度函数。呃,其实也不用怎么推导,它是n维超球坐标的一个直接结论。要求两个随机向量之间的夹角分布,很显然,由于各向同性,所以我们只需要考虑单位向量,而同样是因为各向同性,我们只需要转载 2021-10-23 20:50:54 · 1060 阅读 · 0 评论 -
蓄水池算法
给定一个数据流,数据流长度N很大,且N直到处理完所有数据之前都不可知,请问如何在只遍历一遍数据(O(N))的情况下,能够随机选取出m个不重复的数据。我们需要找到一种随机的方式使的每个样本被取出的概率为CN−1m−1CNm=mN\frac{C^{m-1}_{N-1}}{C^{m}_{N}}=\frac{m}{N}CNmCN−1m−1=Nm采用的方式是前m个样本全部取出,对于大于m的样本i,以mi\frac{m}{i}im的概率选择该元素,并从现有的m个样本随机一个位置替换。推导一下计算i原创 2021-10-23 11:45:36 · 2481 阅读 · 0 评论 -
随机向量:各向同性
文章目录各向同性各向同性各向同性 (Isotropy) 是指随机向量是各向同性的如果它的协方差矩阵为单位矩阵。对于均值为μ\muμ,协方差为Σ\SigmaΣ的随机向量XXX,我们可以定义Z=Σ−1/2(X−μ)Z=\Sigma^{-1/2}(X-\mu)Z=Σ−1/2(X−μ),可得ZZZ就是一个零均值各向同性的随机向量。范数与距离的关系以及在机器学习中的应用...原创 2021-10-23 10:59:14 · 2100 阅读 · 0 评论 -
矩阵的特征分解
文章目录特征值和特征向量矩阵的特征分解直观理解通过特征分解求逆矩阵特征值和特征向量线性代数中,特征分解(eigendecomposition)是将矩阵分解为由特征值和特征向量表示的矩阵之积的方法。注意:只有可对角化矩阵才能特征分解特征值和特征向量的定义:Ax=λx\mathbf{Ax=\lambda x}Ax=λx其中AAA是一个n×nn\times nn×n的矩阵,xxx是一个nnn维向量,λ\lambdaλ是AAA的一个特征值,xxx是矩阵AAA的特征值λ\lambdaλ对应的特征向量利原创 2021-10-22 21:11:13 · 3367 阅读 · 0 评论 -
矩阵的迹相关性质
文章目录迹的定义迹的性质线性函数矩阵乘积的迹迹的相似不变性矩阵迹数和特征多项式迹的定义在线性代数中,一个n×nn\times nn×n的矩阵AAA的迹,是指AAA的主对角线(从左上方至右下方)上各个元素的和,一般记作tr(A)tr(A)tr(A)或Sp(A)Sp(A)Sp(A)tr(A)=∑i=1naiitr(A)=\sum\limits_{i=1}^{n}a_{ii}tr(A)=i=1∑naii一个矩阵的迹是其特征值的总和迹的性质线性函数对于任意两个n×nn\times nn×n的原创 2021-10-21 20:47:11 · 5124 阅读 · 0 评论 -
协方差矩阵与多元正态分布
文章目录协方差矩阵协方差协方差矩阵多元正态分布协方差矩阵的特征值分解协方差矩阵协方差在统计学中,方差用来度量单个随机变量的离散程度,而协方差用来刻画两个随机变量的相似程度,方差的计算公式σx2=1n−1∑in(xi−xˉ)\sigma_x^2=\cfrac{1}{n-1}\sum\limits_i^n(x_i-\bar{x})σx2=n−11i∑n(xi−xˉ)其中 nnn 表示样本数,xˉ\bar{x}xˉ 表示观测样本的均值。协方差的计算公式定义为:σ(x,y)=1n−1∑i=1n原创 2021-10-21 13:04:08 · 12714 阅读 · 1 评论 -
正定矩阵和半正定矩阵
正定矩阵所有的二次齐次都唯一对应一个对称矩阵A,所有的齐次二次式都可以表示为矩阵的形式例如:f=x12+2x1x2+4x22+6x2x3+4x32f=x_1^2+2x_1x_2+4x_2^2+6x_2x_3+4x_3^2f=x12+2x1x2+4x22+6x2x3+4x32[x1x2x3][110143034][x1x2x3]=XTAX\begin{bmatrix}x_1 & x_2 & x_3\end{bmatrix}\begin{bmatrix}1 &原创 2021-10-21 12:38:07 · 1368 阅读 · 0 评论 -
最大熵模型
最大熵模型详解最大熵模型简易解说拉格朗日对偶(Lagrange duality)原创 2021-09-06 21:19:53 · 182 阅读 · 0 评论 -
极大似然估计
贝叶斯决策我们都知道经典的贝叶斯公式:p(w∣x)=p(x∣w)p(w)p(x)p(w|x)=\frac{p(x|w)p(w)}{p(x)}p(w∣x)=p(x)p(x∣w)p(w)x指事件,w指类别p(w)为先验概率,表示每种类别分布的概率p(x|w)为类条件概率,在某种类别的条件下,事件x发生的概率p(w|x)为后验概率,表示事件x发生的情况下,类别是w的概率举个例子理解下上面三个概念:例子:夏天男性穿凉鞋的比例为1/2,女性穿拖鞋的比例为2/3,男女的比例2:1,如果遇到一个穿凉原创 2020-06-19 18:40:43 · 411 阅读 · 0 评论 -
概率论-贝叶斯公式
全概率公式:设A1,A2,...,AnA_1,A_2,...,AnA1,A2,...,An为样本空间Ω\OmegaΩ的一个完备事件组(A1,A2,...,AnA_1,A_2,...,AnA1,A2,...,An没有交集且A1UA2...UAn=ΩA_1UA_2...UA_n=\OmegaA1UA2...UAn=Ω)且P(Ai)>0(i=0,1,2,...,n)P(A_i)>0(i=0,1,2,...,n)P(Ai)>0(i=0,1,2,...,n),B为任一事件,则P(B)原创 2021-04-04 17:42:53 · 659 阅读 · 0 评论 -
概率论-概率理论推导
文章目录1. 利用集合并推导1. 利用集合并推导有ABC三个随机事件,我们知道,至少有两个事件发生表示为 AB∪AC∪BCAB\cup AC\cup BCAB∪AC∪BC 至多一个事件发生表示为(A‾∩B‾∩C‾)∪B‾AC‾∪A‾BC‾∪A‾CB‾(\overline{A} \cap \overline{B} \cap \overline{C})\cup \overline{B} A\overline{C}\cup \overline{A}B\overline{C}\cup \overline{A}C原创 2021-03-28 14:50:32 · 924 阅读 · 0 评论 -
概率论-古典模型计算概率
将54张纸牌抽出两张,相同花色的概率?概率是实际情况的反应,这里既然要求概率,就计算以下该情况出现的比例花色相同有4种,所以花色相同的情况有N=4∗C(2,14)N=4*C(2,14)N=4∗C(2,14) 54抽2的情况有M=C(2,54)M=C(2,54)M=C(2,54) 结果概率P=N/MP=N/MP=N/M将54张纸牌分为6组,每组9张,求大小王在同一组的概率?计算大小王在同一组的次数情况:N=4∗C(7,52)∗C(9,45)∗C(9,36)∗C(9,27)∗C(9,18)∗C(..原创 2021-03-26 00:18:05 · 844 阅读 · 0 评论