第三章 概率与信息论
这部分内容,基本已经全部忘光,把章节内容简单得记录一下
3.2 随机变量 random varible -可随机取不同值得变量
3.3 概率分布 -probability distribution
3.3.1 离散型变量和概率质量函数 probability mass function PMF
3.3.2 连续型变量和概率密度函数 probability density function PDF
3.4 边缘概率 marginal probability distribution
这种定义在子集上的概率分布被称为 边缘概率分布(marginal probabilitydistribution)
3.5 条件概率
某个事件,在给定其他事件发生时出现的概率。这种概率叫做条件概率。我们将给定 x = x, y = y 发生的条件概率记为P (y = y j x = x)。
3.6 条件概率的链式法则
任何多维随机变量的联合概率分布,都可以分解成只有一个变量的条件概率相乘的形式
这个规则被称为概率的 链式法则(chain rule)或者 乘法法则(product rule)
3.7 独立性 和条件独立性
两个随机变量 x 和 y,如果它们的概率分布可以表示成两个因子的乘积形式,并且一个因子只包含 x 另一个因子只包含 y,我们就称这两个随机变量是 相互独立的(independent)
3.8 期望、方差和协方差
3.9 概率分布
3.9.1 Bernoulli 分布
(Bernoulli distribution)是单个二值随机变量的分布
3.9.2 Multinoulli 分布
Multinoulli 分布(multinoulli distribution)或者 范畴分布(categorical distribution)是指在具有 k 个不同状态的单个离散型随机变量上的分布,其中 k 是一个有限值
3.9.3 高斯分布
实数上最常用的分布就是 正态分布(normal distribution),也称为 高斯分布(Gaussian distribution)
3.9.4 指数分布和Laplace 分布
3.10 常用函数的有用性质
其中一个函数是 logistic sigmoid 函数
另外一个经常遇到的函数是 softplus 函数(softplus function)
3.11 贝叶斯规则
第四章 数值计算
4.3 基于梯度的优化方法
大多数深度学习算法都涉及某种形式的优化。优化指的是改变 x 以最小化或最大化某个函数 f(x) 的任务。我们通常以最小化 f(x) 指代大多数最优化问题。
我们把要最小化或最大化的函数称为 目标函数(objective function)或 准则(criterion)。当我们对其进行最小化时,我们也把它称为 代价函数(cost function)、损失函数(loss function)或 误差函数(error function)