PRML-系列一之1.2.4

高斯分布

  我们将用整个第2章介绍各种概率分布的研究以及他们的主要属性。但是,这里介绍连续变量最重要的概率分布即正态或高斯分布是比较合适的。在本章的其余部分我们将广泛使用这种分配,实际上贯穿本书的许多地方。
  在一个实值变量x的情况下,高斯分布定义如下:
这里写图片描述
它由两个参数:μ称为平均值和σ2称为方差控制。方差的平方根σ叫做标准差,方差的倒数(β= 1 /σ2)叫做精度。我们不久将看到这些项的动机。图1.13显示了一个高斯分布。
  从(1.46)的形式我们可以看到高斯分布满足:
这里写图片描述
另外它也明确地表明高斯分布被归一化,所以
这里写图片描述
(1.46)满足有效概率密度的两个要求。
这里写图片描述
我们可以容易的找到高斯分布下x函数的期望。x的平均值如下:
这里写图片描述
因为参数μ表示x的平均值,它被称作均值。类似的,对于二阶的情况:
这里写图片描述
从(1.49)和(1.50),得到x的方差:
这里写图片描述
因此σ2叫做方差。一个分布的最大值叫做它的模式。对高斯来说,它的模式和均值一致。
  我们也对定义在连续变量的D维向量x的高斯分布感兴趣,其形式如下:
这里写图片描述
其中D维向量μ叫做均值,D ×D矩阵 Σ叫做协方差,|Σ| 表示Σ的行列式。它的性质在2.3节会详细讨论,但在本章我们将简短的使用多元高斯分布。
  现在假设我们有观测X=(x1,,,xn)T的一个数据集,X代表标量x的N个观测值。注意,我们使用打印字体X来区分单个矢量值变量(x1,…,xD)T的观测值,用x表示。我们将假设观测是从均值μ和方差σ2未知的高斯分布中独立抽取出来的,并且我们想从数据集中确定这些参数。从相同分布中独立抽取出的数据点是独立同分布的,通常缩写为i.i.d。我们可以看出,两个独立事件的联合概率由每个事件的边缘概率乘积得到。因为我们的数据集x是独立同分布的,因此,给出μ和σ2,我们可以将数据集的概率写为下面的形式:
这里写图片描述
当把它看做μ和σ2的函数时,该等式就是高斯分布的似然函数,粗略地图像解释如1.14。
这里写图片描述
  使用观测数据集来确定概率分布中的参数有一个普遍的标准,即找到最大化似然函数的参数值。这似乎是一个奇怪的标准,因为根据我们前面概率论的讨论,似乎更自然的做法是给定数据最大化参数的概率,而不是给定参数最大化数据的概率。事实上,这两个标准是相关的,我们将在曲线拟合的情况下讨论。
  然而,目前我们应通过最大化似然函数(1.53)来确定高斯中未知参数μ和σ2的值。在实践中,更方便的是最大化似然函数的对数。因为对数是单调递增函数,最大化函数的对数相当于最大化函数本身。取对数不仅简化了随后的数学分析,也有利于用数字表示,因为许多小概率求积容易溢出计算机的数值精度,通过转化为计算对数概率的和可以解决这个问题。从(1.46)和(1.53),对数似然函数可以写成如下形式:
这里写图片描述
对μ最大化(1.54),我们得到了最大似然解决方案:
这里写图片描述
它是样本均值,即观察值{x}的均值。类似地,对σ2最大化(1.54),我们得到了方差的最大似然解决方案:
这里写图片描述
它是相对于样本均值μML的样本方差。注意我们正在执行对于μ和σ2的联合最大化。但是在高斯分布的情况下,μ的解决方法从σ2的解决方法中分离出来,使得我们可以先估计(1.55),紧接着用它的结果来估计(1.56)。
  在本章的后面以及随后的章节中,我们将突出最大似然方法显著的局限性。这里,我们给出问题的一个指示,这个问题出现在单变量高斯分布最大似然参数设置解上。特别是,我们将展示最大似然方法系统地低估了分布的方差。这是被称为偏差现象的一个例子,并且和多项式曲线拟合情况下遇到过度拟合相关。我们首先注意到最大似然解μML和σ2ML是数据集x1,, ,xn的函数。考虑这些量对于数据集的期望,表示如下:
这里写图片描述
通常最大似然估计将获得正确的均值,但是用于因子(N − 1)/N而低估了真正的方差。这个结果的直观感受如图1.15
这里写图片描述
根据(1.58),下面的方差参数估计是无偏差的:
这里写图片描述
在10.1.3节,我们将会看到当我们采取贝叶斯方法时,这个结果是如何自动出现的。
  注意,随着数据点的数量N逐渐变大,最大似然解的偏压变得不那么明显,并且在Ñ→∞时,方差的最大似然解等于分布的真实方差。在实践中,对于任何小N的情况,这种偏见被证明不是一个严重的问题。然而,在整本书中,我们对更复杂的且带有很多参数的模型感兴趣,这些模型中与最大似然相关的偏差问题会更加严重。事实上,正如我们将要看到的,最大似然问题中的偏差问题根源在于过拟合问题,该问题就是我们前面多项式曲线拟合情况下遇到的。

深度学习是机器学习的一个子领域,它基于人工神经网络的研究,特别是利用多层次的神经网络来进行学习和模式识别。深度学习模型能够学习数据的高层次特征,这些特征对于图像和语音识别、自然语言处理、医学图像分析等应用至关重要。以下是深度学习的一些关键概念和组成部分: 1. **神经网络(Neural Networks)**:深度学习的基础是人工神经网络,它是由多个层组成的网络结构,包括输入层、隐藏层和输出层。每个层由多个神经元组成,神经元之间通过权重连接。 2. **前馈神经网络(Feedforward Neural Networks)**:这是最常见的神经网络类型,信息从输入层流向隐藏层,最终到达输出层。 3. **卷积神经网络(Convolutional Neural Networks, CNNs)**:这种网络特别适合处理具有网格结构的数据,如图像。它们使用卷积层来提取图像的特征。 4. **循环神经网络(Recurrent Neural Networks, RNNs)**:这种网络能够处理序列数据,如时间序列或自然语言,因为它们具有记忆功能,能够捕捉数据中的时间依赖性。 5. **长短期记忆网络(Long Short-Term Memory, LSTM)**:LSTM 是一种特殊的 RNN,它能够学习长期依赖关系,非常适合复杂的序列预测任务。 6. **生成对抗网络(Generative Adversarial Networks, GANs)**:由两个网络组成,一个生成器和一个判别器,它们相互竞争,生成器生成数据,判别器评估数据的真实性。 7. **深度学习框架**:如 TensorFlow、Keras、PyTorch 等,这些框架提供了构建、训练和部署深度学习模型的工具和库。 8. **激活函数(Activation Functions)**:如 ReLU、Sigmoid、Tanh 等,它们在神经网络中用于添加非线性,使得网络能够学习复杂的函数。 9. **损失函数(Loss Functions)**:用于评估模型的预测与真实值之间的差异,常见的损失函数包括均方误差(MSE)、交叉熵(Cross-Entropy)等。 10. **优化算法(Optimization Algorithms)**:如梯度下降(Gradient Descent)、随机梯度下降(SGD)、Adam 等,用于更新网络权重,以最小化损失函数。 11. **正则化(Regularization)**:技术如 Dropout、L1/L2 正则化等,用于防止模型过拟合。 12. **迁移学习(Transfer Learning)**:利用在一个任务上训练好的模型来提高另一个相关任务的性能。 深度学习在许多领域都取得了显著的成就,但它也面临着一些挑战,如对大量数据的依赖、模型的解释性差、计算资源消耗大等。研究人员正在不断探索新的方法来解决这些问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值