2021年10月_von Neumann

12月 11月 10月 09月 08月 07月

原创深入理解机器学习——机器学习概览

机器学习算法是一种能够从数据中学习的算法。卡耐基梅隆大学计算机科学学院机器学习系主任Mitchell给出了机器学习算法的定义：对于某类任务TTT和性能度量PPP，一个计算机程序被认为可以从经验EEE中学习是指，通过经验EEE改进后，它在任务TTT上由性能度量PPP衡量的性能有所提升。经验EEE，任务TTT和性能度量PPP的定义范围非常宽广，我们会在接下来的文章中提供直观的解释和示例来介绍不同的任务、性能度量和经验，这些将被用来构建机器学习算法。任务TTT机器学习可以让我们解决一些人为设计和使用确定性程

2021-10-07 15:15:42 19543

原创机器学习中的数学——激活函数（十二）：高斯误差线性单元(GELUs)

高斯误差线性单元为Gaussian Error Linerar Units，来源于论文《Gaussian Error Linear Units (GELUs)》。在神经网络的建模过程中，模型很重要的性质就是非线性，同时为了模型泛化能力，需要加入随机正则，例如dropout(随机置一些输出为0,其实也是一种变相的随机非线性激活)，而随机正则与非线性激活是分开的两个事情，而其实模型的输入是由非线性激活与随机正则两者共同决定的。高斯误差线性单元正是在激活中引入了随机正则的思想，是一种对神经元输入的概率描述，直

2021-10-06 13:32:58 19788

原创机器学习中的数学——激活函数（十一）：Softsign函数

Softsign函数是Tanh函数的另一个替代选择。就像Tanh函数一样，Softsign函数是反对称、去中心、可微分，并返回-1和1之间的值。其更平坦的曲线与更慢的下降导数表明它可以更高效地学习，比tTanh函数更好的解决梯度消失的问题。另一方面，Softsign函数的导数的计算比Tanh函数更麻烦。Softsign(x)=x1+∣x∣\text{Softsign}(x)=\frac{x}{1+|x|}Softsign(x)=1+∣x∣xSoftsign′(x)=1(1+∣x∣)2\text{Sof

2021-10-06 12:58:27 25322

原创机器学习中的数学——激活函数（十）：Softplus函数

Softplus函数可以看作是ReLU函数的平滑。根据神经科学家的相关研究，Softplus函数和ReLU函数与脑神经元激活频率函数有神似的地方。也就是说，相比于早期的激活函数，Softplus函数和ReLU函数更加接近脑神经元的激活模型，而神经网络正是基于脑神经科学发展而来，这两个激活函数的应用促成了神经网络研究的新浪潮。Softplus(x)=log⁡(1+ex)\text{Softplus}(x)=\log(1+e^x)Softplus(x)=log(1+ex)Softplus函数的图像：.

2021-10-06 12:39:24 65935 5

原创机器学习中的数学——激活函数（九）：Maxout函数

Maxout函数来源于ICML上的一篇文献《Maxout Networks》，它可以理解为是神经网络中的一层网络，类似于池化层、卷积层一样。我们也可以把Maxout函数看成是网络的激活函数层，我们假设网络某一层的输入特征向量为：x=(x1,x2,⋯ ,xd)x=(x_1, x_2, \cdots, x_d)x=(x1,x2,⋯,xd)，也就是我们输入是ddd个神经元。Maxout函数的输出如下：Maxout(x)=max⁡(ωixi+bi)\text{Maxout}(x)=\max{(\omega

2021-10-06 12:21:53 21226

原创机器学习中的数学——激活函数（八）：Swish函数

Swish 的设计受到了 LSTM 和高速网络中gating的sigmoid函数使用的启发。我们使用相同的gating值来简化gating机制，这称为self-gating。Swish(x)=x∗Sigmoid(x)\text{Swish}(x)=x*Sigmoid(x)Swish(x)=x∗Sigmoid(x)self-gating的优点在于它只需要简单的标量输入，而普通的gating则需要多个标量输入。这使得诸如Swish之类的self-gated激活函数能够轻松替换以单个标量为输入的激活函数（如：

2021-10-06 11:58:38 29008 2

原创机器学习中的数学——激活函数（七）：Softmax函数

Softmax函数是用于多类分类问题的激活函数，在多类分类问题中，超过两个类标签则需要类成员关系。对于长度为KKK的任意实向量，Softmax函数可以将其压缩为长度为KKK，值在[0,1][0,1][0,1]范围内，并且向量中元素的总和为1的实向量。Softmax(x)=exi∑iexi\text{Softmax}(x)=\frac{e^{x_i}}{\sum_ie^{x_i}}Softmax(x)=∑iexiexiSoftmax函数与正常的max函数不同：max函数仅输出最大值，但Softma

2021-10-06 09:55:54 62943 1

原创机器学习中的数学——激活函数（六）：Parametric ReLU（PReLU）函数

PReLU 也是 ReLU 的改进版本：PReLU(x)={x,x>0αix,x≤0 PReLU(x)=\left\{\begin{aligned}x & \quad ,x > 0 \\\alpha_i x & \quad , x\leq 0\\\end{aligned}\right.PReLU(x)={xαix,x>0,x≤0PReLU函数中，参数α\alphaα通常为0到1之间的数字，并且通常相对较小。如果αi=0\alpha_i=0αi=0

2021-10-06 00:35:45 18581

原创机器学习中的数学——激活函数（五）：ELU函数

ELU 的提出也解决了ReLU 的问题。与ReLU相比，ELU有负值，这会使激活的平均值接近零。均值激活接近于零可以使学习更快，因为它们使梯度更接近自然梯度。ELU(x)={x,x>0α(ex−1),x≤0 ELU(x)=\left\{\begin{aligned}x & \quad ,x > 0 \\\alpha(e^x - 1) & \quad , x\leq 0\\\end{aligned}\right.ELU(x)={xα(ex−1),x>0,x≤0

2021-10-06 00:16:53 33935 4

原创机器学习中的数学——激活函数（四）：Leaky ReLU函数

它是一种专门设计用于解决Dead ReLU问题的激活函数：f(x)={xifx>0αxifx≤0 f(x)=\left\{\begin{aligned}x & \quad if &x > 0 \\\alpha x & \quad if & x\leq 0\\\end{aligned}\right.f(x)={xαxififx>0x≤0Leaky ReLU函数的特点：Leaky ReLU函数通过把xxx的非常小的线性分量给予负输入0.

2021-10-06 00:00:15 79282 6

原创机器学习中的数学——激活函数（三）：线性整流函数（ReLU函数）

线性整流函数，又称修正线性单元ReLU，是一种人工神经网络中常用的激活函数，通常指代以斜坡函数及其变种为代表的非线性函数。ReLU(x)=max⁡(0,x) ReLU(x)=\max{(0, x)}ReLU(x)=max(0,x)线性整流函数（ReLU函数）的特点：当输入为正时，不存在梯度饱和问题。计算速度快得多。ReLU 函数中只存在线性关系，因此它的计算速度比Sigmoid函数和tanh函数更快。Dead ReLU问题。当输入为负时，ReLU完全失效，在正向传播过程中，这不是问题。有些区域很

2021-10-05 20:23:48 27533

原创机器学习中的数学——激活函数（二）：双曲正切函数（Tanh函数）

双曲正切函数是双曲函数的一种。双曲正切函数在数学语言上一般写作tanh⁡\tanhtanh。它解决了Sigmoid函数的不以0为中心输出问题，然而，梯度消失的问题和幂运算的问题仍然存在。tanh⁡(x)=ex−e−xex+e−x\tanh(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}}tanh(x)=ex+e−xex−e−xtanh⁡\tanhtanh函数的图像：...

2021-10-05 20:13:33 34470

原创机器学习中的数学——激活函数（一）：Sigmoid函数

Sigmoid函数是一个在生物学中常见的S型函数，也称为S型生长曲线。在深度学习中，由于其单增以及反函数单增等性质，Sigmoid函数常被用作神经网络的激活函数，将变量映射到[0,1][0, 1][0,1]之间。S(x)=11+e−xS(x)=\frac{1}{1+e^{-x}}S(x)=1+e−x1Sigmoid函数的导数可以用其自身表示：S′(x)=e−x(1+e−x)2=S(x)(1−S(x))S'(x)=\frac{e^{-x}}{(1+e^{-x})^2}=S(x)(1-S(x))S′(x

2021-10-05 19:46:56 114932 3

原创机器学习中的数学——激活函数：基础知识

激活函数，是在人工神经网络的神经元上运行的函数，负责将神经元的输入映射到输出端。激活函数对于人工神经网络模型去学习、理解非常复杂和非线性的函数来说具有十分重要的作用。它们将非线性特性引入到我们的网络中。在神经元中，输入通过加权，求和后，还被作用了一个函数，这个函数就是激活函数。引入激活函数是为了增加神经网络模型的非线性。若没有激活函数的每层都相当于矩阵相乘。没有激活函数的神经网络叠加了若干层之后，还是一个线性变换，与单层感知机无异。后续文章我们将会深入浅出地介绍各种激活函数。...

2021-10-05 18:17:30 17413

原创机器学习中的数学——病态条件

条件数表征函数相对于输入的微小变化而变化的快慢程度。输入被轻微扰动而迅速改变的函数对于科学计算来说可能是有问题的，因为输入中的舍人误差可能导致输出的巨大变化。考虑函数f(x)=A−1xf(x)=A^{-1}xf(x)=A−1x当A∈Rn×nA\in R^{n\times n}A∈Rn×n具有特征值分解时，其条件数为：max⁡i,j∣λiλj∣\max_{i, j}|\frac{\lambda_i}{\lambda_j}|i,jmax∣λjλi∣这是最大和最小特征值的模之比1.当该数很大时，矩阵

2021-10-05 17:54:51 11562

原创机器学习中的数学——上溢和下溢

连续数学在数字计算机上的根本困难是，我们需要通过有限数量的位模式来表示无限多的实数。这意味着我们在计算机中表示实数时，几乎总会引入一些近似误差。在许多情况下，这仅仅是舍入误差。舍入误差会导致一些问题，特别是当许多操作复合时，即使是理论上可行的算法，如果在设计时没有考虑最小化舍入误差的累积，在实践时也可能会导致算法失效。一个极具破坏力的数值错误形式是上溢。当大量级的数被近似为+∞+\infty+∞或-\infty$时发生上溢。进一步的运算通常会导致这些无限值变为非数字。另一种极具毁灭性的舍入误差是下溢。当

2021-10-05 15:14:45 12152

原创机器学习中的数学——结构化概率模型/图模型

机器学习的算法经常会涉及到在非常多的随机变量上的概率分布。通常，这些概率分布涉及到的直接相互作用都是介于非常少的变量之间的。使用单个函数来描述整个联合概率分布是非常低效的。我们可以把概率分布分解成许多因子的乘积形式，而不是使用单一的函数来表示概率分布。例如，假设我们有三个随机变量aaa，bbb和ccc，并且aaa影响bbb的取值，bbb影响ccc的取值，但是aaa和ccc在给定bbb时是条件独立的。我们可以把全部三个变量的概率分布重新表示为两个变量的概率分布的连乘形式：p(a.b.c)=p(a)p(b∣

2021-10-05 14:44:05 11451

原创机器学习中的数学——连续型随机变量的变换

连续型随机变量的另一技术细节，涉及到处理那种相互之间有确定性函数关系的连续型变量。偎设我们有两个随机变量xxx和yyy满足y=g(x)y=g(x)y=g(x)，其中ggg是可逆的且连续可微的函数。可能有人会想py(y)=px(g−1(y))p_y(y)=p_x(g^{-1}(y))py(y)=px(g−1(y))。但实际上这并不对。举一个简单的例子，假设我们有两个标量值随机变量xxx和yyy，并且满足y=x2y=\frac{x}{2}y=2x以及x∼U(0,1)x\sim U(0, 1)x∼U(0,

2021-10-05 13:35:15 11543

原创机器学习中的数学——连续型随机变量的测度

连续型随机变量和概率密度函数的深人理解需要用到数学分支测度论的相关内容来扩展概率论。在《概率分布》中，我们已经看到连续型向量值随机变量xxx落在某个集合SSS中的概率是通过p(x)p(x)p(x)对集合SSS积分得到的。对于集合SSS的一些选择可能会引起悖论。例如，构造两个集合S1S_1S1和S2S_2S2使得p(x∈S1)+p(x∈S2)>1p(x\in S_1)+p(x\in S_2)>1p(x∈S1)+p(x∈S2)>1并且S1∩S2=0S_1 \cap S_2=0S1∩S

2021-10-05 12:55:19 11381

原创机器学习中的数学——贝叶斯定理

我们经常会需要在已知P(y∣x)P(y|x)P(y∣x)时计算P(x∣y)P(x|y)P(x∣y)。幸运的是，如果还知道P(x)P(x)P(x)，我们可以用贝叶斯定理来实现这一目的：P(x∣y)=P(y∣x)P(x)P(y)P(x \mid y) = \frac{P(y \mid x) P(x)}{P(y)}P(x∣y)=P(y)P(y∣x)P(x)注意到P(y)P(y)P(y)出现在上面的公式中，它通常使用P(y)=∑xP(y∣x)P(x)P(y)=\sum_xP(y \mid x) P(x)P(y

2021-10-05 11:13:08 10579

原创机器学习中的数学——分布的混合

通过组合一些简单的概率分布来定义新的概率分布也是很常见的。一种通用的组合方法是构造混合分布。混合分布由一些组件分布构成。每次实验，样本是由哪个组件分布产生的取决于从一个 Multinoulli分布中采样的结果：P(x)=∑iP(c=i)P(x∣c=i)P(x)=\sum_iP(c=i)P(x|c=i)P(x)=i∑P(c=i)P(x∣c=i)这里P(c)P(c)P(c)是对各组件的一个Multinoulli分布。我们已经看过一个混合分布的例子了：实值变量的经验分布对于每一个训练实例来说，就是以 Dir

2021-10-04 19:11:45 13554

原创机器学习中的数学——常用概率分布（十一）：狄利克雷分布（Dirichlet分布）

狄利克雷分布是关于一组ddd个连续变量xi∈[0,1]x_i\in[0, 1]xi∈[0,1]的概率分布，∑ixi=1\sum_ix_i=1∑ixi=1。令μ=(μ1,μ2,⋯ ,μd)\mu=(\mu_1, \mu_2, \cdots, \mu_d)μ=(μ1,μ2,⋯,μd)，参数α=(α1,α2,⋯ ,αd)\alpha=(\alpha_1, \alpha_2, \cdots, \alpha_d)α=(α1,α2,⋯,αd)，其中αi>0\alpha_i>0αi>

2021-10-04 18:50:41 18473

原创机器学习中的数学——常用概率分布（十）：贝塔分布（Beta分布）

贝塔分布是关于连续变量x∈[0,1]x\in[0, 1]x∈[0,1]的概率分布，它由两个参数a>0a>0a>0和b>0b>0b>0确定：Beta(x∣a,b)=Γ(a+b)Γ(a)Γ(b)μa−1(1−μ)b−1=1B(a,b)μa−1(1−μ)b−1Beta(x|a, b)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1}=\frac{1}{B(a, b)}\mu^{a-1}(1-\mu)^{b

2021-10-04 18:25:27 26482 2

原创机器学习中的数学——常用概率分布（九）：经验分布（Empirical分布）

《常用概率分布：狄拉克分布（Dirac分布）》中提到的狄拉克分布经常作为经验分布的一个组成部分出现：$$$$经验分布将概率密度1m\frac{1}{m}m1赋给mmm个点x(1),x(2),⋯ ,x(m)x(1), x(2), \cdots, x(m)x(1),x(2),⋯,x(m)中的每一个，这些点是给定的数据集或者采样的集合。只有在定义连续型随机变量的经验分布时，Dirac delta函数才是必要的。对于离散型随机变量，情况更加简单：经验分布可以被定义成个Multinoulli分布，对于每一个可

2021-10-04 18:09:25 16988

原创机器学习中的数学——常用概率分布（八）：狄拉克分布（Dirac分布）

在一些情况下，我们希望概率分布中的所有质量都集中在一个点上。这可以通过 Dirac delta函数δ(x)\delta(x)δ(x)定义概率密度函数来实现：p(x)=δ(x−μ)p(x)=\delta(x-\mu)p(x)=δ(x−μ)Dirac delta函数被定义成在除了0以外的所有点的值都为0，但是积分为1。 Dirac delta函数不像普通函数一样对x的每一个值都有一个实数值的输出，它是一种不同类型的数学对象，被称为广义函数，广义函数是依据积分性质定义的数学对象。我们可以把 Dirac del

2021-10-04 16:49:40 25857 2

原创机器学习中的数学——常用概率分布（七）：拉普拉斯分布（Laplace分布）

拉普拉斯分布（Laplace分布）允许我们在任意一点μ\muμ处设置概率质量的峰值：Laplace(x∣μ,γ)=12γe−∣x−μ∣γ\text{Laplace}(x|\mu,\gamma)=\frac{1}{2\gamma}e^{-\frac{|x-\mu|}{\gamma}}Laplace(x∣μ,γ)=2γ1e−γ∣x−μ∣拉普拉斯分布的期望为μ\muμ，方差为2γ22\gamma^22γ2，偏度为0，峰度为3。拉普拉斯分布的概率密度与正态分布看起来很像，下图为标准拉普拉斯分布（γ=1\ga

2021-10-03 16:46:22 26475 3

原创机器学习中的数学——常用概率分布（六）：指数分布（Exponential分布）

指数分布是描述泊松过程中的事件之间的时间的概率分布，即事件以恒定平均速率连续且独立地发生的过程。这是伽马分布的一个特殊情况。它是几何分布的连续模拟，它具有无记忆的关键性质。除了用于分析泊松过程外，还可以在其他各种环境中找到。指数函数的一个重要特征是无记忆性。这表示如果一个随机变量呈指数分布，当s,t>0:P(T>t+s∣T>t)=P(T>s)s, t>0:P(T>t+s|T>t)=P(T>s)s,t>0:P(T>t+s∣T>t)=P(

2021-10-03 16:29:43 18805

原创机器学习中的数学——常用概率分布（五）：高斯分布（Gaussian分布）/正态分布（Normal分布）

实数上最常用的分布就是正态分布，也称为高斯分布：N(x∣μ,σ2)=12πσ2e−(x−μ)22σ2N(x|\mu,\sigma^2)=\sqrt{\frac{1}{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}N(x∣μ,σ2)=2πσ21e−2σ2(x−μ)2其中：E[x]=μE[x]=\muE[x]=μVar(x)=piσ2Var(x)=pi\sigma^2Var(x)=piσ2正态分布由两个参数控制，μ∈R\mu\in Rμ∈R和σ

2021-10-03 16:03:49 20878

原创机器学习中的数学——常用概率分布（四）：均匀分布（Uniform分布）

均匀分布（Uniform分布）是关于定义在区间[a,b](a<b)[a, b](a<b)[a,b](a<b)上连续变量的简单概率分布，其概率密度函数如下图所示：它的概率密度函数为：U(x∣a,b)=1b−aU(x|a,b)=\frac{1}{b-a}U(x∣a,b)=b−a1它具有如下的一些性质：E[x]=a+b2E[x]=\frac{a+b}{2}E[x]=2a+bVar(x)=(b−a)212Var(x)=\frac{(b-a)^2}{12}Var(x)=12(b−a

2021-10-03 15:10:27 20784

原创机器学习中的数学——常用概率分布（三）：二项分布（Binomial分布）

二项分布（Binomial分布）用以描述NNN次独立的伯努利实验中有mmm次成功，即x=1x=1x=1的概率，其中每次伯努利实验成功的概率为ϕ∈[0,1]\phi\in[0,1]ϕ∈[0,1]。Bin(m∣N,ϕ)=CNmϕm(1−ϕ)N−mBin(m|N, \phi)=C_N^m\phi^m(1-\phi)^{N-m}Bin(m∣N,ϕ)=CNmϕm(1−ϕ)N−m和伯努利分布类似，二项分布也有如下性质：E[x]=NϕE[x]=N\phiE[x]=NϕVar(x)=Nϕ(1−ϕ)Var(x)=

2021-10-03 14:58:01 17158

原创机器学习中的数学——常用概率分布（二）：范畴分布（Multinoulli分布）

范畴分布（Multinoulli分布）是指在具有kkk个不同状态的单个离散型随机变量上的分布，其中kkk是个有限值。Multinoulli分布由向量p∈[0,1]k−1p\in[0, 1]^{k-1}p∈[0,1]k−1参数化，其中每一个分量ppp表示第iii个状态的概率。最后的第kkk个状态的概率可以通过1−∑k−1pi1-\sum_{k-1}p_i1−∑k−1pi给出。注意我们必须限制∑k−1pi≤1\sum_{k-1}p_i\leq 1∑k−1pi≤1。Multinoulli分布经常用来表示

2021-10-03 14:41:04 20452 3

原创机器学习中的数学——常用概率分布（一）：伯努利分布（Bernoulli分布）

伯努利分布（Bernoulli分布）是单个二值随机变量的分布。它由单个参数ϕ∈[0,1]\phi\in[0, 1]ϕ∈[0,1]控制，ϕ\phiϕ给出了随机变量等于 1 的概率。它具有如下的一些性质：试验成功的概率为ϕ\phiϕ：P(x=1)=ϕP(x=1)=\phiP(x=1)=ϕ试验失败的概率为1−ϕ1-\phi1−ϕ：P(x=0)=1−ϕP(x=0)=1 - \phiP(x=0)=1−ϕ试验的期望为ϕ\phiϕ：E[x]=ϕE[x]=\phiE[x]=ϕ试验的方差为ϕ(1−ϕ)\phi(1-

2021-10-03 14:16:49 24525

原创机器学习中的数学——期望、方差和协方差

函数f(x)f(x)f(x)关于某分布P(x)P(x)P(x)的期望或者期望值是指，当xxx由PPP产生，fff作用于xxx时，f(x)f(x)f(x)的平均值。对于离散型随机变量，这可以通过求和得到：Ex∼P[f(x)]=∑xf(x)P(x)E_{x \sim P}[f(x)] = \sum_x f(x) P(x)Ex∼P[f(x)]=x∑f(x)P(x)对于连续型随机变量可以通过求积分得到：Ex∼p[f(x)]=∫xf(x)p(x)dxE_{x \sim p}[f(x)] = \int_x f

2021-10-02 21:32:35 12437

原创机器学习中的数学——独立性和条件独立性

两个随机变量xxx和yyy，如果它们的概率分布可以表示成两个因子的乘积形式，并且一个因子只包含xxx另一个因子只包含yyy，我们就称这两个随机变量是相互独立的：∀xi∈x,yi∈y:P(x=xi,y=yi)=P(x=xi)P(y=yi)\forall x_i\in x, y_i\in y:P(x=x_i, y=y_i)=P(x=x_i)P(y=y_i)∀xi∈x,yi∈y:P(x=xi,y=yi)=P(x=xi)P(y=yi)如果关于xxx和yyy的条件概率分布对于zzz的每一个值都可以写成

2021-10-02 20:45:45 11986

原创机器学习中的数学——条件概率

在很多情况下，我们感兴趣的是某个事件，在给定其他事件发生时出现的概率。这种概率叫做条件概率。我们将给定x=xix=x_ix=xi，y=yiy=y_iy=yi，发生的条件概率记为P(y=yi∣x=xi)P(y=y_i|x=x_i)P(y=yi∣x=xi)。这个条件概率可以通过下面的公式计算：P(y=yi∣x=xi)=P(x=xi,y=yi)P(x=xi)P(y=y_i|x=x_i)=\frac{P(x=x_i, y=y_i)}{P(x=x_i)}P(y=yi∣x=xi)=P(x=xi)P(x=

2021-10-02 19:49:05 11591

原创机器学习中的数学——边缘概率

有时候，我们知道了一组变量的联合概率分布，但想要了解其中一个子集的概率分布。这种定义在子集上的概率分布被称为边缘概率分布。例如，假设有离散型随机变量xxx和yyy，并且我们知道P(x,y)P(x, y)P(x,y)。我们可以依据下面的求和法则来计算P(x)P(x)P(x)：∀xi∈x:P(xi)=∑yiP(xi,yi)\forall x_i\in x:P(x_i)=\sum_{y_i}P(x_i, y_i)∀xi∈x:P(xi)=yi∑P(xi,yi)“边缘概率”的名称来源于手算边缘概率的计

2021-10-02 16:59:12 13927

原创机器学习中的数学——概率分布

概率分布用来描述随机变量或一簇随机变量在每个可能取到的状态的可能性大小。我们描述概率分布的方式取决于随机变量是离散的还是连续的。离散型变量和概率质量函数离散型变量的概率分布可以用概率质量函数来描述。我们通常用大写字母PPP来表示概率质量函数。通常每一个随机变量都会有个不同的概率质量函数，并且我们必须根据随机变量来推断所使用的PMF，而不是根据函数的名称来推断；例如，P(x)P(x)P(x)通常和P(y)P(y)P(y)不一样。概率质量函数将随机变量能够取得的每个状态映射到随机变量取得该状态的概率。x=

2021-10-02 16:29:41 11502

原创机器学习中的数学——随机变量

随机变量可以随机地取不同值的变量。例如，x1x_1x1和x2x_2x2都是随机变量xxx可能的取值。就其本身而言，一个随机变量只是对可能的状态的描述；它必须伴随着一个概率分布来指定每个状态的可能性。随机变量可以是离散的或者连续的。离散随机变量拥有有限或者可数无限多的状态。注意这些状态不一定非要是整数；它们也可能只是一些被命名的状态而没有数值。连续随机变量伴随着实数值。...

2021-10-02 15:57:08 11563

原创机器学习中的数学——概率论基础知识

概率论是用于表示不确定性声明的数学框架。它不仅提供了量化不确定性的方法，也提供了用于导岀新的不确定性声明的公理。在人工智能领域，概率论主要有两种用途。首先，概率法则告诉我们AI系统如何推理，据此我们设计些算法来计算或者估算由概率论导出的表达式。其次，我们可以用概率和统计从理论上分析我们提出的AI系统的行为。计算机科学的许多分支处理的实体大部分都是完全确定且必然的。程序员通常可以安全地假定CPU将完美地执行每条机器指令。虽然硬件错误确实会发生，但它们足够罕见，以致于大部分软件应用在设计时并不需要考虑这些因素

2021-10-02 15:51:19 12920

原创机器学习中的数学——行列式

分类目录：《算法设计与分析》总目录行列式，记作det⁡(A)\det(A)det(A)，是一个将方阵AAA映射到实数的函数。行列式等于矩阵特征值的乘积。行列式的绝对值可以用来衡量矩阵参与矩阵乘法后空间扩大或者缩小了多少。如果行列式是0，那么空间至少沿着某一维完全收缩了，使其失去了所有的体积。如果行列式是1，那么这个转换保持空间体积不变。...

2021-10-01 20:31:52 10983

思维导图源文件《预训练模型总览》

该文件为《预训练模型总览》思维导图源文件，可自行编辑并输出相应图片或自行学习保存使用，详细内容可以参考：文章《自然语言处理从入门到应用——预训练模型总览》，文章链接：https://machinelearning.blog.csdn.net/article/details/131404053 从大量无标注数据中进行预训练使许多自然语言处理任务获得显著的性能提升。总的来看，预训练模型的优势包括： - 在庞大的无标注数据上进行预训练可以获取更通用的语言表示，并有利于下游任务 - 为模型提供了一个更好的初始化参数，在目标任务上具备更好的泛化性能、并加速收敛 - 是一种有效的正则化手段，避免在小数据集上过拟合，而一个随机初始化的深层模型容易对小数据集过拟合该思维导图源文件就是各种预训练模型的思维导图，其分别按照词嵌入（Word Embedding）方式分为静态词向量（Static Word Embedding）和动态词向量（Dynamic Word Embedding）方式分类、按照监督学习和自监督学习方式进行分类、按照拓展能力等分类方式展现，用户可以自行编辑修改。

2023-06-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人